Состояние узла = отключено с TORQUE v6.1.0 на рабочей станции

Я устанавливал Torque 6.1.0 на рабочую станцию ​​Ubuntu 16.04, но установка, похоже, не распознает, сколько ядер и потоков имеет машина. Единственный настроенный мной узел показывал состояние «состояние = не работает», и любое задание вызывало ошибку, говорящую «недостаточно узлов правильного типа». Фактически рабочая станция имеет 56 потоков или 28 физических ядер на 2 процессорах, и я хочу использовать только 54 потока или 27 физических ядер для общих вычислительных задач. Я понял, что это может быть связано с настройкой cgroup или NUMA, начиная с Torque V6.0, а я нет, если я правильно поступал при установке. У меня действительно была включена cgroup, но я не уверен, что мне также нужно настроить функцию поддержки NUMA, чтобы она также была включена. Ниже приведены некоторые результаты текущих конфигураций. Что я должен делать? Спасибо.

$ pbsnodes
node1
 state = down
 power_state = Running
 np = 54
 ntype = cluster
 mom_service_port = 15002
 mom_manager_port = 15003
 total_sockets = 0
 total_numa_nodes = 0
 total_cores = 0
 total_threads = 0
 dedicated_sockets = 0
 dedicated_numa_nodes = 0
 dedicated_cores = 0
 dedicated_threads = 0


$ lssubsys -am
cpuset /sys/fs/cgroup/cpuset
cpu,cpuacct /sys/fs/cgroup/cpu,cpuacct
blkio /sys/fs/cgroup/blkio
memory /sys/fs/cgroup/memory
devices /sys/fs/cgroup/devices
freezer /sys/fs/cgroup/freezer
net_cls,net_prio /sys/fs/cgroup/net_cls,net_prio
perf_event /sys/fs/cgroup/perf_event
hugetlb /sys/fs/cgroup/hugetlb
pids /sys/fs/cgroup/pids

Есть также подозрительная часть: кажется, что сервер не видит узел, который я уже определил в файле конфигурации сервера. Это можно увидеть в файле журнала /var/spool/torque/server_logs:

12/27/2016 15:48:33.147;01;PBS_Server.2692;Svr;PBS_Server;LOG_ERROR::get_node_from_str, Node node1 is reporting on node NapaValley, which pbs_server doesn't know about
12/27/2016 15:49:18.232;01;PBS_Server.2692;Svr;PBS_Server;LOG_ERROR::get_node_from_str, Node node1 is reporting on node NapaValley, which pbs_server doesn't know about
12/27/2016 15:49:25.491;08;PBS_Server.2696;Job;0.NapaValley;Job deleted at request of cquic@localhost
12/27/2016 15:49:27.023;08;PBS_Server.2657;Job;0.NapaValley;on_job_exit valid pjob: 0.NapaValley (substate=59)
12/27/2016 15:49:32.996;256;PBS_Server.2657;Job;0.NapaValley;dequeuing from batch, state COMPLETE
12/27/2016 15:49:59.722;256;PBS_Server.2696;Job;1.NapaValley;enqueuing into batch, state 1 hop 1
12/27/2016 15:49:59.722;08;PBS_Server.2696;Job;perform_commit_work;job_id: 1.NapaValley
12/27/2016 15:49:59.722;02;PBS_Server.2696;node;close_conn;Closing connection 9 and calling its accompanying function on close
12/27/2016 15:49:59.795;64;PBS_Server.2692;Req;node_spec;job allocation request exceeds currently available cluster nodes, 1 requested, 0 available
12/27/2016 15:49:59.796;08;PBS_Server.2692;Job;1.NapaValley;Job Modified at request of root@localhost
12/27/2016 15:50:03.312;01;PBS_Server.2696;Svr;PBS_Server;LOG_ERROR::get_node_from_str, Node node1 is reporting on node NapaValley, which pbs_server doesn't know about

На моем /etc/hosts у меня есть

127.0.0.1 localhost node1
127.0.0.1 NapaValley

PS: я пытался смонтировать процессор и другие модули в каталоги /var/spool/torque/cgroup, но lssubsys -am по-прежнему показывал ту же информацию, что и выше. Я так понимаю их надо было ставить?


person Xiaodong Qi    schedule 27.12.2016    source источник
comment
Вы настроили с помощью hwloc? docs.adaptivecomputing.com/9-1-0/installGuide/RH6/ Требуется версия 1.9.1+ и ниже 2.2.3 (установка сервера Torque): 2. В зависимости от конфигурации вашей системы вам потребуется добавить параметры команды ./configure. Как минимум, вы добавляете: ‑‑enable‑cgroups ‑‑with‑hwloc‑path=/usr/local Дополнительную информацию см. в разделе 1.2.1 Torque. Вам также необходимо установить cgroup-tools И hwloc на вычислительных узлах.   -  person clusterdude    schedule 27.12.2016
comment
У меня был установлен hwloc 1.11.5 из исходников. cgroup-tools были установлены из репозитория пакетов Ubuntu. Когда я запускаю configure, я использовал ./configure --enable-cgroups --with-hwloc-path=/usr/local, как вы указали на основе руководства. Поскольку узел находится именно на сервере моей рабочей станции, я думаю, что мне не нужно переустанавливать hwloc, верно?   -  person Xiaodong Qi    schedule 28.12.2016
comment
О, извините... Я пропустил строки журнала вашего сервера об узле. Я опубликую ответ ниже.   -  person clusterdude    schedule 28.12.2016


Ответы (1)


Узел сообщит серверу имя, возвращенное вызовом gethostbyname. Судя по опубликованным вами строкам журнала, сервер и узел не согласны с этим именем. Вы можете заставить pbs_mom вернуть другое имя, запустив его с опцией -H:

http://docs.adaptivecomputing.com/torque/6-0-2/adminGuide/help.htm#topics/torque/commands/pbs_mom.htm#-h

"-H hostname Устанавливает имя хоста MOM. Это может быть полезно в многосетевых сетях."

Это эквивалентно установке $mom_host node1 в /var/spool/torque/mom_priv/config.

person clusterdude    schedule 28.12.2016
comment
Спасибо за публикацию этого решения. Я решил эту проблему, используя имя сервера в качестве имени узла и установив log_level=7. Я думаю, что, возможно, ваше решение также сработает, но я устал пытаться сейчас, так как эта проблема заняла у меня неделю, чтобы найти рабочее решение. В любом случае, это может быть полезно для других и должно быть вознаграждено за ваши усилия! - person Xiaodong Qi; 28.12.2016