Проблема с подключением Infiniband

Я получаю кластер, узлы которого связаны в толстое дерево IB. Коммутаторы Qlogic 12300.

У меня проблема в том, что некоторые узлы не могут общаться друг с другом. Даже есть другие узлы, которые могут общаться с обоими затронутыми узлами.

Я использовал ibtracert для диагностики проблемы. Удивительно то, что если я запускаю эту команду на отдельном узле, который может общаться с обоими узлами, они в порядке и сообщают о возможном маршруте.

Однако команда ibtracert выдаст ошибку, если я выполню ее с двух затронутых узлов.

Могу я спросить, какова вероятная причина этого?

Спасибо.


person Wei    schedule 24.02.2014    source источник
comment
Пожалуйста, рассмотрите возможность повторной публикации вашего вопроса на serverfault.com.   -  person Dmitri Chubarov    schedule 24.02.2014


Ответы (1)


Два HCA не могут общаться друг с другом, потому что так настроена маршрутизация в вашей подсети. Тот факт, что вы можете общаться с третьей машины на обеих «проблемных» машинах, указывает на то, что это проблема не хостов, а проблема подсети.

Маршрутизация Infiniband - сложная проблема, и только по вашему описанию я не могу понять, как ее исправить.

В общем, Subnet Manager рассчитывает и настраивает маршрутизацию на всех коммутаторах. Какой тип Subnet Manager вы используете? Это OpenSM, работающий на каком-то хосте, или SM Qlogic, встроенный в один из коммутаторов?

Если это Qlogic, вам нужно перейти к их интерфейсу управления и изменить/исправить алгоритм маршрутизации. Если это OpenSM, вы можете запустить его с маршрутизацией "minhop" (запустите "opensm -h", чтобы увидеть использование) - это должно решить проблему. Однако на самом деле это не решит проблему — у вас, вероятно, что-то не так в топологии подсети, и именно на этом вам нужно сосредоточиться, если / как только маршрутизация minhop решит проблему.

person kliteyn    schedule 26.02.2014
comment
Спасибо за ответ. Очень полезно. Это SM Qlogic, встроенный в один из основных коммутаторов. Я использую маршрутизацию толстых деревьев. Я заметил, что между одним из основных коммутаторов и листовым коммутатором есть два кабеля, показывающих состояние соединения, но статус не активен, а инициализируется. Означает ли это, что два кабеля плохие? Если плохо, то почему он показывает связь? - person Wei; 28.02.2014
comment
Я не уверен, что вы имеете в виду под состоянием и статусом. Каждый порт имеет два типа состояний: физическое и логическое. Состояние и статус, вероятно, являются словарем Qlogic. Я предполагаю, что вы видите физическое состояние как соединение и логическое как инициализацию. Тот факт, что это состояние, которое вы видите на портах, подключенных к коммутаторам, намекает на то, что либо ваш SM не работает/завис, либо на одном из коммутаторов возникла какая-то проблема. Кабели были бы здесь моим последним подозреваемым. Проверьте свой SM (возможно, перезапустите его) или перезагрузите основной коммутатор, на котором возникла проблема, или конечный коммутатор. - person kliteyn; 02.03.2014
comment
Раньше я видел, как ссылки застревают при инициализации, и проследил это до плохого порта на коммутаторе ib. Из-за большого количества вещей, проходящих через этот коммутатор, я не смог выполнить тестовую перезагрузку и просто обошел порт. - person MrBooks; 15.04.2014