Как включить Spark в Datastax Datacenter?

Наша текущая установка центра обработки данных Datastax содержит 6 узлов, в которых включены как Solr, так и граф.

root @ ip-10-10-5-36: ~ # cat / etc / default / dse | grep -E 'SOLR_ENABLED | GRAPH_ENABLED'

GRAPH_ENABLED=1
SOLR_ENABLED=1

root @ ip-10-10-5-36: ~ # статус nodetool

Datacenter: SearchGraph
=======================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address     Load       Tokens       Owns    Host ID                               Rack
UN  10.10.5.56  456.58 MiB  1            ?       936a1ac0-6d5e-4a94-8953-d5b5a2016b92  rack1
UN  10.10.5.46  406.24 MiB  1            ?       3f41dc2a-2672-47a1-90b5-a7c2bf17fb50  rack1
UN  10.10.5.76  392.99 MiB  1            ?       29f8fe44-3431-465e-b682-5d24e37d41d7  rack2
UN  10.10.5.66  414.16 MiB  1            ?       1f7de531-ff51-4581-bdb8-d9a686f1099e  rack2
UN  10.10.5.86  424.3 MiB   1            ?       27d37833-56c8-44bd-bac0-7511b8bd74e8  rack2
UN  10.10.5.36  511.44 MiB  1            ?       0822145f-4225-4ad3-b2be-c995cc230830  rack1

Мы планируем внедрить Spark в нашем существующем центре обработки данных. У меня вопрос

1) Повлияет ли включение Spark на существующие данные и сервис в datastax?

2) Или вместо включения SPARK_ENABLED = 1 нам нужно было настроить отдельный центр обработки данных для Spark?

Обновлено:

3) Как DC1 и DC2 соединяют друг друга в кольцо, основано ли это на том же имени кластера, которое указано в параметре cluster_name:. Файл конфигурации: /etc/dse/cassandra/cassandra.yaml

4) Нужна ли отдельная конфигурация для указания Spark Master в дата-центре.

5) Нужно ли было указывать IP-адрес источника SearchGraph (DC1) в разделе конфигурации Spark (DC2)? Или просто IP-адрес Spark seed нужно указать только в разделе конфигурации DC2 (cassandra: yaml)

Sreeraju V 30.01.2018 источник

Ответы (2)

arrow_upward
0
arrow_downward

Рекомендуется создать отдельный центр обработки данных для DSE Analytics. Полный процесс описан в документации.

Alex Ott 30.01.2018

comment

Спасибо, мы создали отдельный DC для рабочей нагрузки Spark. Наш кластер теперь содержит 6 узлов SearchGraph в DC1 и 3 узла Spark в DC2. Мы изменили пространство ключей , как описано в документе и настроенное имя_кластера: одинаково в обоих Дата-центрах. Теперь оба центра обработки данных отображаются в кластере. - Sreeraju V; 02.02.2018

comment

Мне нужны пояснения по подключению дата-центра в кластере. (1) Как DC1 и DC2 соединяют друг друга в кольцо, основано ли это на том же имени кластера, которое указано в параметре cluster_name:. (2) Требуется ли какая-либо отдельная конфигурация для указания Spark Master в центре обработки данных. (3) Нужно ли было указывать IP-адрес начального числа SearchGraph (DC1) в разделе конфигурации начального числа Spark (DC2)? Или просто IP-адрес Spark seed нужно указать только в разделе конфигурации DC2 (Cassandra: yaml) - Sreeraju V; 02.02.2018

comment

По крайней мере, один узел от каждого контроллера домена должен быть в начальном списке для всех узлов на обоих контроллерах домена (docs.datastax.com/en/cassandra/3.0/cassandra/initialize/). - Alex Ott; 02.02.2018

arrow_upward
0
arrow_downward

Чтобы дополнить ответ Алекса, это будет зависеть от того, хотите ли вы выполнить Graph Analytics или нет. Какой тип работы Spark будет выполняться, когда он будет включен?

jlacefie 30.01.2018

Как включить Spark в Datastax Datacenter?

Ответы (2)

Похожие вопросы