Как включить Spark в Datastax Datacenter?

Наша текущая установка центра обработки данных Datastax содержит 6 узлов, в которых включены как Solr, так и граф.

root @ ip-10-10-5-36: ~ # cat / etc / default / dse | grep -E 'SOLR_ENABLED | GRAPH_ENABLED'

GRAPH_ENABLED=1
SOLR_ENABLED=1

root @ ip-10-10-5-36: ~ # статус nodetool

Datacenter: SearchGraph
=======================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address     Load       Tokens       Owns    Host ID                               Rack
UN  10.10.5.56  456.58 MiB  1            ?       936a1ac0-6d5e-4a94-8953-d5b5a2016b92  rack1
UN  10.10.5.46  406.24 MiB  1            ?       3f41dc2a-2672-47a1-90b5-a7c2bf17fb50  rack1
UN  10.10.5.76  392.99 MiB  1            ?       29f8fe44-3431-465e-b682-5d24e37d41d7  rack2
UN  10.10.5.66  414.16 MiB  1            ?       1f7de531-ff51-4581-bdb8-d9a686f1099e  rack2
UN  10.10.5.86  424.3 MiB   1            ?       27d37833-56c8-44bd-bac0-7511b8bd74e8  rack2
UN  10.10.5.36  511.44 MiB  1            ?       0822145f-4225-4ad3-b2be-c995cc230830  rack1

Мы планируем внедрить Spark в нашем существующем центре обработки данных. У меня вопрос

1) Повлияет ли включение Spark на существующие данные и сервис в datastax?

2) Или вместо включения SPARK_ENABLED = 1 нам нужно было настроить отдельный центр обработки данных для Spark?

Обновлено:

3) Как DC1 и DC2 соединяют друг друга в кольцо, основано ли это на том же имени кластера, которое указано в параметре cluster_name:. Файл конфигурации: /etc/dse/cassandra/cassandra.yaml

4) Нужна ли отдельная конфигурация для указания Spark Master в дата-центре.

5) Нужно ли было указывать IP-адрес источника SearchGraph (DC1) в разделе конфигурации Spark (DC2)? Или просто IP-адрес Spark seed нужно указать только в разделе конфигурации DC2 (cassandra: yaml)


person Sreeraju V    schedule 30.01.2018    source источник


Ответы (2)


Рекомендуется создать отдельный центр обработки данных для DSE Analytics. Полный процесс описан в документации.

person Alex Ott    schedule 30.01.2018
comment
Спасибо, мы создали отдельный DC для рабочей нагрузки Spark. Наш кластер теперь содержит 6 узлов SearchGraph в DC1 и 3 узла Spark в DC2. Мы изменили пространство ключей , как описано в документе и настроенное имя_кластера: одинаково в обоих Дата-центрах. Теперь оба центра обработки данных отображаются в кластере. - person Sreeraju V; 02.02.2018
comment
Мне нужны пояснения по подключению дата-центра в кластере. (1) Как DC1 и DC2 соединяют друг друга в кольцо, основано ли это на том же имени кластера, которое указано в параметре cluster_name:. (2) Требуется ли какая-либо отдельная конфигурация для указания Spark Master в центре обработки данных. (3) Нужно ли было указывать IP-адрес начального числа SearchGraph (DC1) в разделе конфигурации начального числа Spark (DC2)? Или просто IP-адрес Spark seed нужно указать только в разделе конфигурации DC2 (Cassandra: yaml) - person Sreeraju V; 02.02.2018
comment
По крайней мере, один узел от каждого контроллера домена должен быть в начальном списке для всех узлов на обоих контроллерах домена (docs.datastax.com/en/cassandra/3.0/cassandra/initialize/). - person Alex Ott; 02.02.2018

Чтобы дополнить ответ Алекса, это будет зависеть от того, хотите ли вы выполнить Graph Analytics или нет. Какой тип работы Spark будет выполняться, когда он будет включен?

person jlacefie    schedule 30.01.2018