Данные временного ряда ES с использованием процентиля/медианы

С Elasticsearch я знаю, что могу сделать несколько хороших запросов данных временных рядов и получить среднее / максимальное значение и т. Д.

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-facets-statistical-facet.html

Возможно ли включить в этот расчет только процентиль 90% и, в частности, в Kibana?

Любые мысли о том, как это можно сделать?


person Derek Organ    schedule 13.02.2014    source источник
comment
Обновление: для всех, кто заинтересован, я нашел эту статью: blog.qbox.io/   -  person Derek Organ    schedule 09.04.2014


Ответы (1)


В настоящее время Elasticsearch не поддерживает процентили (включая медиану).

Процентили гораздо сложнее вычислить, чем статистику в распределенной среде. Предположим, у вас есть 2 осколка. Если вы спросите их обоих о сумме их значений и количестве значений, вы сможете узнать глобальное среднее значение: ($sum1 + $sum2) / $(value_count1 + $value_count2).

С другой стороны, если вы хотите вычислить медиану, единственный способ точно вычислить ее — получить все значения из обоих сегментов, отсортировать их и взять медиану. Это потребует много памяти и пропускной способности сети.

К счастью, существуют алгоритмы, которые позволяют вычислять хорошие приблизительные значения процентилей с ограниченным использованием памяти, и мы, в частности, изучаем tdigest, поэтому вполне вероятно, что (приблизительные) процентили будут поддерживаться в будущем выпуске Elasticsearch.

person jpountz    schedule 13.02.2014