Интеграция Cassandra и Pig. Является ли Hadoop необязательным?

Я пытаюсь настроить пробный кластер cassandra + pig. Вики cassandra звучит так, будто вам нужен хауп для интеграции со свиньей.

но ридми в cassandra-src/contrib/pig звучит так, будто вы можете запустить pig на cassandra без хаупа.

Если Hadoop необязателен, что вы теряете, не используя его?


person marathon    schedule 11.01.2012    source источник


Ответы (2)


Hadoop необязателен только при тестировании. Чтобы делать что-либо в любом масштабе, вам также понадобится хауп.

Запуск без хаупа означает, что вы запускаете свинью в локальном режиме. Это в основном означает, что все данные обрабатываются одним и тем же процессом свиньи, в котором вы работаете. Это отлично работает с одним узлом и примерными данными.

При работе с любым значительным объемом данных или несколькими машинами вы хотите запустить свинью в режиме Hadoop. Запустив трекеры задач Hadoop на узлах cassandra, свинья может воспользоваться преимуществами сокращения карты, распределяя рабочую нагрузку и используя локальность данных для уменьшения передачи по сети.

person nickmbailey    schedule 11.01.2012
comment
Это то, что мне нужно было знать. Спасибо. - person marathon; 11.01.2012

Это необязательно. У Cassandra есть собственная реализация LoadFunc и storeFunc от pig, которые позволяют вам запрашивать и сохранять.

Hadoop и Cassandra во многом отличаются. Трудно сказать, что вы теряете, не зная, чего именно вы пытаетесь достичь.

person ligerdave    schedule 11.01.2012
comment
Hadoop требуется для параллелизма Pig. Параллельного Pig на основе Cassandra нет, только локальный режим. - person rjurney; 11.10.2012