Riak TS/InfluxDB ограничивает количество серий

Мы рассматриваем возможность использования Riak TS или InfluxDB в качестве хранилища временных рядов для варианта использования, в котором у нас могут быть сотни миллионов рядов. Каждая серия будет иметь небольшое количество записей с течением времени, ежечасно или ежедневно. Количество точек данных на серию также будет низким. Запросы, вероятно, также будут иметь низкую сложность.

Исследуя оба, мы обнаружили, что InfluxDB имеет некоторые ограничения на количество серий, которые она может обрабатывать, и поэтому может быть недопустимым решением.

Я не могу найти информацию об этом ограничении для Riak TS. Я предполагаю, что, поскольку он построен на основе ядра Riak KV, у него нет такого жесткого ограничения, но я хотел бы быть уверенным.

Является ли InfluxDB по-прежнему допустимым решением, если учесть, что количество точек данных в серии будет низким? Есть ли у Riak TS такие же ограничения?


person lopesmcc    schedule 23.09.2016    source источник
comment
На данный момент InfluxDB не масштабируется до сотен миллионов серий. Основная причина этого в том, что все серии хранятся в памяти. Однако это изменится в ближайшие несколько месяцев. См. вопрос об поддержке тегов и рядов с высокой кардинальностью.   -  person Michael Desa    schedule 26.09.2016
comment
Не могли бы вы поделиться производительностью, которую вы получили от Riak TS? мы в таком же состоянии и не решили что выбрать? наш случай немного отличается, и мы можем использовать искровое и лазурное хранилище BLOB-объектов для обработки и хранения данных. Мы получаем 1 миллион метров x 288 показаний = 288 миллионов строк (примерно 360 ГБ в день).   -  person Amin Mohebi    schedule 23.05.2018


Ответы (2)


Riak TS действительно не имеет этих ограничений, поэтому вы можете свободно им пользоваться. Также RiakTS очень хорошо масштабируется. На самом деле это лучше всего работает в кластере, поэтому вам, вероятно, следует начать с 3 ящиков. Вы можете настроить коэффициент репликации и множество настроек.

Вы говорите, что ваши запросы будут иметь низкую сложность, поэтому встроенных функций запросов RiakTS будет более чем достаточно.

RiakTS позволяет настроить размер «квантов», что сделает ваш экземпляр RiakTS более ориентированным на чтение или запись. Однако в вашем случае, если у вас низкий трафик и у вас не так много сложных запросов, я бы не стал об этом беспокоиться.

Следует иметь в виду, что Riak TS не отслеживает имена серий, поэтому вам придется либо иметь имена серий, которые вы можете вычислить (например, _), либо иметь отдельный БД для хранения, перечисления и поиска названий серий. Если это проблема для вас, я могу дать вам больше информации/советов/примеров о том, как заставить это работать.

Если вы хотите оставаться на стороне открытого исходного кода, я не думаю, что InfluxDB вам подойдет. Если вы платите за корпоративную версию InfluxDB, она может работать, как сказал deniszh, но вы будете вынуждены перейти в кластер и масштабироваться только для того, чтобы иметь возможность хранить больше серий, а не потому, что этого требует ваш трафик.

Некоторые примеры InfluxDB: https://www.reddit.com/r/Database/comments/2nw9k0/practical_limits_of_influxdb/

Вас может заинтересовать DalmatinerDb ( https://dalmatiner.io/ ), так как он основан на некоторых те же технологии, что и RiakTS, но для вас предусмотрено хранение и индексация названий серий; также говорят, что он быстрее. Однако кажется, что для его запуска и работы требуется более сложная настройка. Также он очень новый.

person dams    schedule 26.09.2016
comment
Статье Reddit, на которую вы ссылаетесь, уже год. - person Michael Desa; 26.09.2016
comment
У вас есть более свежая информация о продакшене, на котором работает InfluxDB? - person dams; 28.09.2016
comment
Их документация показывает некоторые цифры по ограничениям и, кажется, актуальна, так как эти цифры менялись в разных версиях: docs.influxdata.com/influxdb/v1.0/guides/hardware_sizing - person lopesmcc; 28.09.2016
comment
Спасибо за информацию. Мы решили пойти с Riak TS. Что касается Дальтаминера, мы думаем, что он все еще слишком новый. То же самое можно сказать и о Riak TS, но, по крайней мере, мы знаем, что Basho его поддерживает, что всегда хорошо. - person lopesmcc; 28.09.2016

IMO, в случае сотен миллионов серий в InfluxDB, вам необходимо проверить его версию Enterprise для кластеризации. RiakTS может выполнять кластеризацию в версии OSS (только для репликации между ЦОД требуется подписка Enterprise)

person deniszh    schedule 24.09.2016