Я создаю Cassandra SSTables, используя образец массовой загрузки, представленный на веб-сайте DataStax. http://www.datastax.com/dev/blog/bulk-loading
Мой вопрос в том, сколько места на диске в идеале занимают файлы SSTable? В моем случае мой CSV-файл данных составляет 40 ГБ, а общее дисковое пространство, используемое SStables для этого конкретного файла, составляет около 250 ГБ. Есть ли что-то, чего мне не хватает при создании этих таблиц? Существуют ли какие-либо параметры сжатия для создания sstables?
Второй шаг, когда я загружаю sstables с помощью sstableloader, работает отлично, и данные доступны для запросов в CQL.
Кроме того, я хотел бы знать, существуют ли какие-либо другие методы импорта больших данных в cassandra, кроме метода массовой загрузки, о котором я упоминал выше.