Оценить размер строки HBase/HyperTable

Есть ли способ оценить размер строки, если я знаю, какие данные я буду хранить (с учетом сжатия)?

Я смотрю на что-то вроде

bson_id | строка (макс. 200 символов) | интервал32 | интервал32 | интервал32 | логический | логический | ДатаВремя | ДатаВремя | ДатаВремя | int32

Я пытаюсь найти лучшее решение для БД примерно для 2 триллионов записей, подобных приведенному выше, в сочетании с примерно x20, например

bson_id | bson_id

Любые другие рекомендации приветствуются


person Ivan    schedule 09.02.2015    source источник


Ответы (1)


Сортировка для очень общего ответа.

Насколько я знаю, только тесты с фиктивными данными являются надежным способом измерения таких вещей. «Пустота» здесь означает фальшивку, но не повторение, потому что сильное повторение может испортить оценки сжатия.

Например, вы можете поставить 1 м, 2 м, 4 м, 8 м, 32 м, 128 м и так далее… записей и проверить, есть ли линейная зависимость. Если он линейный, вы можете легко с некоторыми непредвиденными обстоятельствами экстраполировать значения для миллиардов и триллионов записей.

В таких тестах вы также можете проверить производительность в соответствии с вашими потребностями. Например, вы можете увеличить коэффициент репликации HDFS, чтобы улучшить производительность чтения.

И, наконец, вы можете проверить это с точки зрения сжатия.

Удачи с BigData!

person sashaegorov    schedule 12.02.2015