Перейти к основному содержимому
Перейти к основному содержимому

topK

Возвращает массив примерно самых частых значений в указанной колонке. Результирующий массив отсортирован в порядке убывания приблизительной частоты значений (не по самим значениям).

Реализует алгоритм Filtered Space-Saving для анализа TopK, основанный на алгоритме reduce-and-combine из Parallel Space Saving.

Эта функция не предоставляет гарантированный результат. В некоторых ситуациях могут возникать ошибки, и она может вернуть частые значения, которые не являются самыми частыми значениями.

Рекомендуем использовать значение N < 10; производительность снижается при больших значениях N. Максимальное значение N = 65536.

Параметры

  • N — Количество элементов для возвращения. Необязательный. Значение по умолчанию: 10.
  • load_factor — Определяет, сколько ячеек резервируется для значений. Если uniq(column) > N * load_factor, результат функции topK будет приблизительным. Необязательный. Значение по умолчанию: 3.
  • counts — Определяет, должно ли результат содержать приблизительное количество и значение ошибки.

Аргументы

  • column — Значение для вычисления частоты.

Пример

Возьмите набор данных OnTime и выберите три самых часто встречающихся значения в колонке AirlineID.

См. также