Вопросы по теме 'slurm'

ожидающие задания slurm не отображаются в sacct
У меня возникла проблема с slurm , когда sacct не показывает ожидающие задания. Ниже вы можете видеть, что задание 110061 не отображается в sacct , но явно находится на рассмотрении в squeue . Любые идеи относительно того, почему это...
1263 просмотров
schedule 29.06.2022

Как использовать sbatch с SLURM и make-файлом?
Я пытаюсь отправить пакетные задания в SLURM, но продолжаю получать JobState=FAILED Reason=NonZeroExitCode . Я могу скомпилировать и запустить код на обычном g ++, но мне нужно использовать SLURM для школьных заданий. Я думал, что запускаю их...
2323 просмотров
schedule 20.03.2023

запуск задания массива slurm с указанным количеством узлов
Я пытаюсь выровнять 168 файлов последовательностей на нашем HPC, используя slurm версии 14.03.0. Мне разрешено использовать максимум 9 вычислительных узлов одновременно, чтобы некоторые узлы оставались открытыми для других людей. Я изменил имена...
249 просмотров
schedule 02.10.2023

Torque / OpenMPI динамически выделяет узлы в зависимости от количества процессоров
Мне было интересно, достаточно ли умен Torque, чтобы назначить правильное количество узлов в зависимости от того, сколько ядер MPI вы запрашиваете. Для нашего кластера у нас есть разнородные узлы, и может быть довольно расточительно просто указать...
410 просмотров
schedule 01.01.2022

Как удалить дренаж узлы slurm в состоянии слива
Использование sinfo показывает, что 3 узла находятся в состоянии drain , PARTITION AVAIL TIMELIMIT NODES STATE NODELIST all* up infinite 3 drain node[10,11,12] Какую командную строку мне следует использовать для удаления...
53904 просмотров
schedule 03.01.2024

Есть ли однострочный способ отправки множества заданий в SLURM (аналогичный LSF)?
Могу ли я отправлять "однострочные" сообщения в SLURM? Используя bsub из LSF и стандартную утилиту Linux xargs , я могу легко отправить отдельное задание для распаковки всех файлов в каталоге: ls *.gz | sed 's/.gz$//g' | xargs -I {} bsub...
5567 просмотров
schedule 30.03.2022

автоматически получать результаты bsub
Я ищу некоторые общие советы, а не решение для кодирования. В основном при отправке задания через bsub я могу получить журнал Stdin/Stdout, указав любое из следующего: bsub -o log.txt % sends StdOut to log.txt bsub -u me@email % sends...
489 просмотров
schedule 12.10.2023

Концепции MPI и Slurm
У меня проблемы с пониманием следующих основных понятий: Когда MPI присваивает ранг для идентификации вычисления, кому именно присваивается ранг: процессу, потоку, процессору и т. Д.? Как указать, что я хочу запустить задание mpi на X...
365 просмотров
schedule 24.03.2024

Как я могу запустить несколько потоков внутри данного процесса MPI?
Я понимаю, что одно задание MPI запускает множество процессов, которые могут выполняться на нескольких узлах. Как запустить несколько потоков внутри данного процесса MPI, используя MPI_THREAD_MULTIPLE? Я не смог найти достаточно информации по...
2957 просмотров
schedule 16.04.2024

Как использовать sbatch в SLURM с файлом конфигурации
Я хотел запустить сценарий python с помощью sbatch, однако кажется, что единственный способ запустить сценарий python с помощью sbatch - это иметь сценарий bash, который затем запускает сценарий python. Как и в случае batch_main.sh :...
1127 просмотров
schedule 26.05.2022

Можно ли запускать задания SLURM в фоновом режиме, используя SRUN вместо SBATCH?
Я пытался запускать задания slurm с srun в фоновом режиме. К сожалению, прямо сейчас из-за того, что мне нужно запускать вещи через докер, использование sbatch немного раздражает, поэтому я пытаюсь выяснить, смогу ли я избежать всего этого вместе....
5561 просмотров
schedule 07.02.2023

SLURM: Когда мы перезагружаем узел, назначения идентификатора задания начинаются с 0?
Например: sacct --start=1990-01-01 -A user возвращает таблицу заданий с последним идентификатором задания как 136, но когда я отправляю новое задание, поскольку sbatch -A user -N1 run.sh отправленное задание bash возвращает 100, что меньше 136....
628 просмотров
schedule 19.06.2022

slurmctld: фатальный: НЕСООТВЕТСТВИЕ ИМЕНИ КЛАСТЕРА
То, как я начинаю слёрмить: mkdir -p /tmp/slurmstate/clustername sudo slurmd sudo munged -f /etc/init.d/munge start sudo slurmdbd sudo slurmctld -c - sacctmgr list cluster Cluster ControlHost ControlPort RPC Share GrpJobs...
768 просмотров
schedule 21.12.2023

Запуск очереди вызовов MPI параллельно с SLURM и ограниченными ресурсами
Я пытаюсь запустить проблему оптимизации роя частиц в кластере с помощью SLURM, с алгоритмом оптимизации, управляемым одноядерным процессом MATLAB. Для каждой оценки частиц требуется несколько вызовов MPI, которые чередуются между двумя программами...
629 просмотров

Причина доступа, по которой slurm остановил работу
Есть ли способ узнать, почему работа была отменена slurm? Я хотел бы отделить случаи превышения лимита ресурсов от всех других причин (например, отмена вручную). В случае, если лимит ресурсов был достигнут, я также хотел бы знать, какой именно.
836 просмотров
schedule 03.12.2023

SLURM Отправить несколько задач на узел?
Я нашел несколько очень похожих вопросов, которые помогли мне прийти к сценарию, который, кажется, работает, однако я все еще не уверен, полностью ли я понимаю, почему, поэтому этот вопрос ... Моя проблема (пример): на 3 узлах я хочу запустить 12...
5892 просмотров
schedule 06.04.2023

Установка / эмуляция SLURM на рабочем столе Ubuntu 16.04: slurmd не запускается
Редактировать Что я действительно ищу, так это способ имитации SLURM, чего-то интерактивного и достаточно удобного для пользователя, которое я могу установить. Исходный пост Я хочу протестировать несколько минимальных примеров с SLURM, и я...
6231 просмотров
schedule 26.12.2022

Правильный запуск сценария Slurm с большим количеством узлов и меньшим количеством ядер
Каждый отдельный узел hpc имеет максимально возможное количество ядер, равное 24, но они часто не все доступны, поэтому я хотел бы запустить код на 4 узлах с 20 ядрами каждый (вместо 24). Правильно ли такое использование MPI? #!/bin/sh # #...
87 просмотров
schedule 19.03.2022

slurm: DependencyNeverSatisfied ошибка даже после того, как сбойное задание повторно поставлено в очередь
Моя цель - построить конвейер с использованием зависимостей slurm и обработать случай, когда задание slurm вылетает из строя. На основании следующего ответа и guide В 29-м разделе рекомендуется использовать scontrol requeue $jobID , который...
1390 просмотров
schedule 17.01.2024

Как проверить, почему/по какой причине мои скрипты ставятся в очередь в slurm?
Я использую slurm и пытаюсь понять, почему мой скрипт не работает/почему он ставится в очередь. По моему мнению, должно быть достаточно ресурсов для запуска, но slurm не согласен. Как мне это проверить? запустилась команда: squeue -o...
395 просмотров
schedule 18.06.2023