После сбоя повторной передачи с одного узла на другой оба узла помечают друг друга как мертвые и не показывают статус друг друга в crm_mon.

Таким образом, при запуске Node 1 не отображается Node 2, и аналогично Node 2 не показывает Node 1 в команде crm_mon.

Проанализировав журнал коросинхронизации, я обнаружил, что из-за множественных сбоев повторной передачи оба узла помечают друг друга как мертвые, поэтому я попытался остановить и запустить коросинк и кардиостимулятор, но они все равно не формируют кластер и не показывают друг друга в crm_mon.

Журналы узла 2:

Для srv-vme-ccs-02

30 октября, 02:22:49 srv-vme-ccs-02 crmd[1973]: уведомление: crm_update_peer_state: plugin_handle_membership: Node srv-vme-ccs-01[2544637100] — состояние теперь член (было (null)

Это член до сих пор

Теперь srv-vme-ccs-01 больше не является участником

На другом узле я нахожу похожие журналы неудачной повторной передачи.

Журналы узла 1

Для srv-vme-ccs-01

30 октября 09:48:32 [2000] srv-vme-ccs-01 pengine: info: define_online_status: Node srv-vme-ccs-01 находится в сети 30 октября 09:48:32 [2000] srv-vme-ccs-01 pengine: информация: define_online_status: узел srv-vme-ccs-02 находится в сети

ct 30 09:48:59 [2001] srv-vme-ccs-01 crmd: информация: update_dc: деактивировать DC. Был srv-vme-ccs-01 30 окт 09:48:59 corosync [TOTEM ] Список ретрансляции: 107 108 109 10a 10b 10c 10d 10e 10f 110 111 112 113 114 115 116 117 30 окт 09:48:59 corosync [TOTEM ] Список ретрансляции: 107 108 109 10a 10b 10c 10d 10e 10f 110 111 112 113 114 115 116 117 118

30 октября, 10:08:22, corosync [TOTEM ] Сбой процессора, формирование новой конфигурации. 30 октября, 10:08:25, corosync [pcmk ], уведомление: pcmk_peer_update: событие переходного членства в кольце 232: memb= 1, новый=0, потерянный=1 30 октября 10:08:25 corosync [pcmk] информация: pcmk_peer_update: memb: srv-vme-ccs-01 2544637100 30 октября 10:08:25 corosync [pcmk] информация: pcmk_peer_update: потерян . [pcmk] информация: pcmk_peer_update: MEMB: srv-vme-ccs-01 2544637100 30 октября 10:08:25 corosync [pcmk] информация: ais_mark_unseen_peer_dead: узел srv-vme-ccs-02 не был замечен в предыдущем переходе 30 октября 10:08:25 информация о corosync [pcmk ]: update_member: узел 2561414316/srv-vme-ccs-02 в настоящее время: потерян 30 октября 10:08:25 информация о corosync [pcmk ]: send_member_notification: отправка членства обновить 232 до 2 детей 30 октября 10:08:25 corosync [TOTEM ] Процессор присоединился к членству или вышел из него, и было сформировано новое членство. 30 октября 10:08:25 [1996] srv-vme-ccs-01 cib: уведомление: plugin_handle_membership:
Членство 232: кворум потерян 30 октября 10:08:25 [1996] srv-vme-ccs-01
cib: уведомление: crm_update_peer_state: plugin_handle_membership: Node srv-vme-ccs-02[2561414316] — состояние утеряно (был участником) 30 октября 10:08:25 corosync [CPG ] selected downlist: sender r(0) ip( 172.20.172.151) ; Members(old:2 left:1) 30 октября 10:08:25 [2001] srv-vme-ccs-01 crmd: уведомление: plugin_handle_membership:
Членство 232: кворум потерян 30 октября 10:08:25 [2001] srv-vme-ccs-01
crmd: уведомление: crm_update_peer_state: plugin_handle_membership: Node srv-vme-ccs-02[2561414316] — состояние утеряно (был участником) 30 октября 10:08:25 [2001] srv- vme-ccs-01 crmd: info: peer_update_callback: srv-vme-ccs-02 теперь потерян (был участником) 30 октября 10:08:25 corosync [MAIN] Завершена синхронизация службы, готово предоставить услугу. 30 окт., 10:08:25 [2001] srv-vme-ccs-01
crmd: предупреждение: match_down_event: Нет соответствия для действия выключения на srv-vme-ccs-02 30 окт., 10:08:25 [1990] srv -vme-ccs-01 pacemakerd:
информация: crm_cs_flush: отправлено 0 сообщений CPG (осталось 1, последнее = 9): повторите попытку (6)

30 октября 10:08:25 [2001] srv-vme-ccs-01 crmd: информация: join_make_offer: Пропуск srv-vme-ccs-01: уже известно 1 30 октября 10:08:25 [2001] srv-vme-ccs -01 crmd: info: update_dc: Установить DC на srv-vme-ccs-01 (3.0.7) 30 октября 10:08:25 [1996] srv-vme-ccs-01
cib: info: cib_process_request: Completed Операция cib_modify для раздела crm_config: OK (rc=0, origin=local/crmd/185, version=0.116.3)

Поэтому одновременно на обоих узлах происходит интенсивная повторная передача сообщения (это происходит после резкой перезагрузки сервера), и оба узла помечают друг друга как потерянный член и формируют отдельный кластер, помечая себя как DC

Я получил решение этого:


person Prateek Singh Chauhan    schedule 06.12.2017    source источник


Ответы (1)


Во-первых, как было проверено в tcpdump, темпемкаер использует многоадресную рассылку, и после расследования с командой Network мы узнали, что многоадресная рассылка не включена.

Итак, когда мы удалили mcastaddere и перезапустили corosync и кардиостимулятор, но corosyn отказался запускаться и сказал ошибку:

В corosync.conf не определены mcast-адреса.

Ластер при отладке обнаружил, что синтаксис для

транспорт: удпу

неверно, это было написано следующим образом:

транспорт = удпу

Итак, corosync по умолчанию работает в режиме многоадресной рассылки.

Итак, проблема решена после исправления corosync.conf.

30 октября 10:07:34 srv-vme-ccs-02 corosync[1613]: [TOTEM ] Список повторной передачи: 117 30 октября 10:07:35 srv-vme-ccs-02 corosync[1613]: [TOTEM ] Список повторной передачи: 118, 30 октября, 10:07:35 srv-vme-ccs-02 corosync[1613]:
[TOTEM] НЕ удалось получить, 30 октября, 10:07:49 srv-vme-ccs-02, arpwatch: bogon 192.168.0.120
d4:be:d9:af:c6:23 30 октября 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk ] уведомление: pcmk_peer_update: событие переходного членства в кольце 232 : memb=1, new=0, lost=1 30 октября 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk] информация: pcmk_peer_update: memb: srv-vme-ccs-02 2561414316 30 октября 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk] информация: pcmk_peer_update: потерян: srv-vme-ccs-01 2544637100 30 октября 10:07:59 srv-vme-ccs-02 corosync[ 1613]: [pcmk] уведомление: pcmk_peer_update: событие стабильного членства в кольце 232: memb=1, new=0, lost=0 30 октября 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk] информация: pcmk_peer_update: MEMB: srv-vme-ccs-02 2561414316 30 октября 10:07:59 srv-vme-ccs-02 corosync[1613]: [pcmk] информация: ais_mark_unseen_peer_dead: узел srv-vme-ccs-01 не был замечен в предыдущем переходе 30 октября 10 :07:59 srv-vme-ccs-02 corosync[1613]:
[pcmk ] info: update_member: Узел 2544637100/srv-vme-ccs-01 сейчас: потерян 30 октября 10:07:59 srv-vme -ccs-02 corosync[1613]: [pcmk] info: send_member_notification: Отправка обновления членства 232 2 дочерним элементам 30 октября 10:07:59 srv-vme-ccs-02 corosync[1613]: [TOTEM] Процессор присоединился или вышел членство и новое членство было сформировано. 30 октября, 10:07:59 srv-vme-ccs-02 corosync[1613]: [CPG ] выбранный нижестоящий список: отправитель r(0) ip(172.20.172.152) ; Members(old:2 left:1) 30 октября 10:07:59 srv-vme-ccs-02 crmd[1973]: уведомление: plugin_handle_membership: Членство 232: кворум потерян 30 октября 10:07:59 srv-vme-ccs- 02 corosync[1613]: [MAIN ] Завершена синхронизация службы, готова предоставить услугу. 30 октября 10:07:59 srv-vme-ccs-02 cib[1968]: уведомление: plugin_handle_membership: Членство 232: кворум потерян 30 октября 10:07:59 srv-vme-ccs-02 crmd[1973]: уведомление: crm_update_peer_state: plugin_handle_membership: Node srv-vme-ccs-01[2544637100] — состояние теперь потеряно (был участником) 30 октября 10:07:59 srv-vme-ccs-02 cib[1968]: уведомление: crm_update_peer_state: plugin_handle_membership : Узел srv-vme-ccs-01[2544637100] — состояние утеряно (был участником) 30 октября 10:07:59 srv-vme-ccs-02 crmd[1973]: предупреждение: reap_dead_nodes: Наш контроллер домена узел (srv-vme-ccs-01) покинул кластер

person Sahil Aggarwal    schedule 11.12.2017