Где запустить искру — Standalone, Hadoop или Mesos

Я изучаю Spark, но не понимаю, нужно ли мне запускать Spark на Hadoop/Yarn или Mesos.

Есть ли прирост производительности, если я работаю на Hadoop/Mesos?

Прямо сейчас я работаю только в автономном режиме на кластере из 4 узлов.

Любой опытный пользователь, который может дать некоторые рекомендации здесь?

Adetiloye Philip Kehinde 24.07.2015 источник

Ответы (1)

arrow_upward
4
arrow_downward

В зависимости от деталей вашего варианта использования вы можете увидеть повышение и понижение производительности в любой конкретной конфигурации по сравнению с другой. Однако Hadoop и Mesos дают вам другие преимущества, помимо производительности. В каждом случае их много, но, например:

Хадуп

HDFS как отказоустойчивое распределенное хранилище файлов.
Доступ к наборам данных с использованием метаданных, существующих в Hadoop, например, через HiveContext.
Комбинируйте обработку Spark с другими методами, такими как Map-Reduce.
YARN в качестве менеджера ресурсов для назначения ресурсов вашим задачам

Mesos — Mesos больше ориентирован на конкретную роль, чем Hadoop, а именно на управление ресурсами в кластере машин. Однако он делает это для ряда типов рабочей нагрузки. Это могут быть задания по обработке данных, такие как Spark, распределенные приложения в Akka, распределенная база данных и т. д. Он может переносить задачи на другие машины в случае сбоя одной машины.

Рекомендую посмотреть это видео, мне посчастливилось присутствовать на этой встрече в прямом эфире: https://www.youtube.com/watch?v=gzx4-6RB7Yw

Он демонстрирует использование Spark, HDFS, Mesos и Docker для распределенных вычислений в кластере облачных машин Amazon.

mattinbits 24.07.2015

comment

Одно замечание: я бы сказал, что Mesos носит более общий характер, поскольку он может управлять широким классом распределенных систем, которые YARN не может, включая базы данных, Kafka и даже саму HDFS. Тем не менее, вы обычно выбираете кластерное решение, исходя из ваших более широких потребностей, например, вы уже используете Hadoop для других целей. Если автономная версия в настоящее время работает для вас, я бы придерживался ее, поскольку другие системы имеют больше накладных расходов, но больше возможностей. - Dean Wampler; 24.07.2015

Где запустить искру — Standalone, Hadoop или Mesos

Ответы (1)

Похожие вопросы