Я оцениваю системы сбора данных датчиков со следующими требованиями:
- 1 миллион конечных точек отправляют 100 байт данных каждую минуту (в виде временных рядов).
В основном миллионы мелких операций записи в хранилище.
This data is write-once, so basically it never gets updated.
- Требования к доступу
а. Полные данные для пользователя должны быть доступны периодически (реже)
б. Частичные данные для пользователя должны быть доступны периодически (чаще). Например, мне нужны данные датчика, собранные за последний час/день/неделю/месяц для анализа/отчетности.
Начал рассматривать Hive/HDFS как вариант. Может ли кто-нибудь прокомментировать применимость Hive в таком случае использования? Я обеспокоен тем, что, хотя потребности в распределенном хранилище будут работать, он кажется более подходящим для приложений хранения данных, чем для сбора/хранения данных в реальном времени.
Имеет ли HBase/Cassandra больше смысла в этом сценарии?