Наша текущая установка центра обработки данных Datastax содержит 6 узлов, в которых включены как Solr, так и граф.
root @ ip-10-10-5-36: ~ # cat / etc / default / dse | grep -E 'SOLR_ENABLED | GRAPH_ENABLED'
GRAPH_ENABLED=1
SOLR_ENABLED=1
root @ ip-10-10-5-36: ~ # статус nodetool
Datacenter: SearchGraph
=======================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
-- Address Load Tokens Owns Host ID Rack
UN 10.10.5.56 456.58 MiB 1 ? 936a1ac0-6d5e-4a94-8953-d5b5a2016b92 rack1
UN 10.10.5.46 406.24 MiB 1 ? 3f41dc2a-2672-47a1-90b5-a7c2bf17fb50 rack1
UN 10.10.5.76 392.99 MiB 1 ? 29f8fe44-3431-465e-b682-5d24e37d41d7 rack2
UN 10.10.5.66 414.16 MiB 1 ? 1f7de531-ff51-4581-bdb8-d9a686f1099e rack2
UN 10.10.5.86 424.3 MiB 1 ? 27d37833-56c8-44bd-bac0-7511b8bd74e8 rack2
UN 10.10.5.36 511.44 MiB 1 ? 0822145f-4225-4ad3-b2be-c995cc230830 rack1
Мы планируем внедрить Spark в нашем существующем центре обработки данных. У меня вопрос
1) Повлияет ли включение Spark на существующие данные и сервис в datastax?
2) Или вместо включения SPARK_ENABLED = 1 нам нужно было настроить отдельный центр обработки данных для Spark?
Обновлено:
3) Как DC1 и DC2 соединяют друг друга в кольцо, основано ли это на том же имени кластера, которое указано в параметре cluster_name:. Файл конфигурации: /etc/dse/cassandra/cassandra.yaml
4) Нужна ли отдельная конфигурация для указания Spark Master в дата-центре.
5) Нужно ли было указывать IP-адрес источника SearchGraph (DC1) в разделе конфигурации Spark (DC2)? Или просто IP-адрес Spark seed нужно указать только в разделе конфигурации DC2 (cassandra: yaml)