Использование Storm в Cloudera

Я пытался использовать Storm, который доступен с установкой Hortonworks 2.1, но чтобы избежать установки Hortonworks в дополнение к установке Cloudera (в которой есть Spark), я попытался найти способ использовать Storm в Cloudera.

Если можно использовать Storm и Spark на одной платформе, это сэкономит дополнительные ресурсы, необходимые для установки Cloudera и Hortonworks на машине.


person abhinavgoyal02    schedule 25.07.2014    source источник
comment
почему это помечено apache-spark?   -  person maasg    schedule 29.07.2014
comment
Исправлено. Это странный формат вопроса.   -  person Sean Owen    schedule 29.07.2014
comment
хорошо, вы не должны были помечаться в SPARK. Спасибо   -  person abhinavgoyal02    schedule 30.07.2014


Ответы (5)


Вы можете использовать Storm с установкой Cloudera. Вам придется установить его самостоятельно и поддерживать его в таком виде. Он не будет частью стека Cloudera, но это не должно мешать вам использовать его вместе с Hadoop, если он вам понадобится.

person Naresh    schedule 28.07.2014
comment
хорошо, тогда отлично, так ли велики накладные расходы на установку STORM в cloudera, что я вместо этого пойду с Hortonworks, чтобы использовать STORM? - person abhinavgoyal02; 30.07.2014
comment
Я не могу ответить на этот вопрос, так как он очень субъективен. Я не думаю, что накладные расходы на установку и поддержку Storm — это много, когда вам нужно сменить поставщика, но если вы чувствуете, что это так, то HW, вероятно, имеет смысл, поскольку они поддерживают как Hadoop, так и Storm. - person Naresh; 31.07.2014

Вы можете использовать Storm на любой платформе поставщика. Тем не менее, вы должны учитывать управление штормовым кластером. Storm не является частью дистрибутива CDH. Cloudera Manager не управляет жизненным циклом сервисов и конфигураций Storm, а также не отслеживает кластер Storm, если только вы не хотите написать расширение Clouderea Manager самостоятельно. Напротив, если вы выберете поставщика, такого как HDP, инструмент управления Ambari на HDP предоставит все перечисленные выше функции управления.

Если у вас есть проект потоковой передачи на CDH, вам следует в первую очередь рассмотреть Apache Spark, поскольку он предоставляет одну и ту же модель программирования как для пакетной, так и для потоковой обработки. Вам не нужно изучать новый API. Однако потоковая передача Apache Spark является микропакетной. Таким образом, в случаях использования, требующих обработки в режиме реального времени с малой задержкой менее секунды, Storm больше подходит.

person Lan    schedule 09.03.2015

Вы можете использовать Storm вместе с Cloudera.

person om-nom-nom    schedule 29.07.2014

Все вышесказанное верно, но зачем вам?

Spark включает Spark Streaming, который позволяет обрабатывать рабочие нагрузки обработки данных и потоковой обработки/событий с помощью единого API. Spark/Streaming уже находится внутри CDH.

Итак, зачем обременять себя двумя разными API?

person Justin Kestelyn    schedule 29.07.2014
comment
Storm — это настоящая потоковая передача, тогда как Spark — это микропакетная обработка. Для некоторых приложений, работающих в режиме, близком к реальному времени, задержка, вызванная микропакетами, может иметь финансовые последствия. - person Alex Woolford; 13.12.2015

Вы можете установить Apache Storm на виртуальную машину Cloudera. Для базовой настройки и пробного запуска перейдите по ссылке ниже:

https://github.com/vrmorusu/StormOnClouderaVM/wiki/Apache-Storm-on-Cloudera-VM

Это должно помочь вам приступить к разработке приложений Storm на Cloudera VM.

person vmorusu    schedule 31.03.2017