Где запустить искру — Standalone, Hadoop или Mesos

Я изучаю Spark, но не понимаю, нужно ли мне запускать Spark на Hadoop/Yarn или Mesos.

Есть ли прирост производительности, если я работаю на Hadoop/Mesos?

Прямо сейчас я работаю только в автономном режиме на кластере из 4 узлов.

Любой опытный пользователь, который может дать некоторые рекомендации здесь?


person Adetiloye Philip Kehinde    schedule 24.07.2015    source источник


Ответы (1)


В зависимости от деталей вашего варианта использования вы можете увидеть повышение и понижение производительности в любой конкретной конфигурации по сравнению с другой. Однако Hadoop и Mesos дают вам другие преимущества, помимо производительности. В каждом случае их много, но, например:

Хадуп

  • HDFS как отказоустойчивое распределенное хранилище файлов.
  • Доступ к наборам данных с использованием метаданных, существующих в Hadoop, например, через HiveContext.
  • Комбинируйте обработку Spark с другими методами, такими как Map-Reduce.
  • YARN в качестве менеджера ресурсов для назначения ресурсов вашим задачам

Mesos — Mesos больше ориентирован на конкретную роль, чем Hadoop, а именно на управление ресурсами в кластере машин. Однако он делает это для ряда типов рабочей нагрузки. Это могут быть задания по обработке данных, такие как Spark, распределенные приложения в Akka, распределенная база данных и т. д. Он может переносить задачи на другие машины в случае сбоя одной машины.

Рекомендую посмотреть это видео, мне посчастливилось присутствовать на этой встрече в прямом эфире: https://www.youtube.com/watch?v=gzx4-6RB7Yw

Он демонстрирует использование Spark, HDFS, Mesos и Docker для распределенных вычислений в кластере облачных машин Amazon.

person mattinbits    schedule 24.07.2015
comment
Одно замечание: я бы сказал, что Mesos носит более общий характер, поскольку он может управлять широким классом распределенных систем, которые YARN не может, включая базы данных, Kafka и даже саму HDFS. Тем не менее, вы обычно выбираете кластерное решение, исходя из ваших более широких потребностей, например, вы уже используете Hadoop для других целей. Если автономная версия в настоящее время работает для вас, я бы придерживался ее, поскольку другие системы имеют больше накладных расходов, но больше возможностей. - person Dean Wampler; 24.07.2015