Интеграция Cassandra и Pig. Является ли Hadoop необязательным?

Я пытаюсь настроить пробный кластер cassandra + pig. Вики cassandra звучит так, будто вам нужен хауп для интеграции со свиньей.

но ридми в cassandra-src/contrib/pig звучит так, будто вы можете запустить pig на cassandra без хаупа.

Если Hadoop необязателен, что вы теряете, не используя его?

marathon 11.01.2012 источник

Ответы (2)

arrow_upward
6
arrow_downward

Hadoop необязателен только при тестировании. Чтобы делать что-либо в любом масштабе, вам также понадобится хауп.

Запуск без хаупа означает, что вы запускаете свинью в локальном режиме. Это в основном означает, что все данные обрабатываются одним и тем же процессом свиньи, в котором вы работаете. Это отлично работает с одним узлом и примерными данными.

При работе с любым значительным объемом данных или несколькими машинами вы хотите запустить свинью в режиме Hadoop. Запустив трекеры задач Hadoop на узлах cassandra, свинья может воспользоваться преимуществами сокращения карты, распределяя рабочую нагрузку и используя локальность данных для уменьшения передачи по сети.

nickmbailey 11.01.2012

comment

Это то, что мне нужно было знать. Спасибо. - marathon; 11.01.2012

arrow_upward
-1
arrow_downward

Это необязательно. У Cassandra есть собственная реализация LoadFunc и storeFunc от pig, которые позволяют вам запрашивать и сохранять.

Hadoop и Cassandra во многом отличаются. Трудно сказать, что вы теряете, не зная, чего именно вы пытаетесь достичь.

ligerdave 11.01.2012

comment

Hadoop требуется для параллелизма Pig. Параллельного Pig на основе Cassandra нет, только локальный режим. - rjurney; 11.10.2012

Интеграция Cassandra и Pig. Является ли Hadoop необязательным?

Ответы (2)

Похожие вопросы