SLURM: Когда мы перезагружаем узел, назначения идентификатора задания начинаются с 0?

Например:

sacct --start=1990-01-01 -A user возвращает таблицу заданий с последним идентификатором задания как 136, но когда я отправляю новое задание, поскольку sbatch -A user -N1 run.sh отправленное задание bash возвращает 100, что меньше 136. И похоже, что пользователь sacct -L -A возвращает список, который заканчивается на 100.

Таким образом, похоже, что отправленные пакетные задания перезаписывают информацию о предыдущих заданиях, чего я не хочу.

[Вопрос] Когда мы перезагружаем узел, назначения идентификатора задания начинаются с 0? Если да, что я должен сделать, чтобы продолжить с последнего назначения идентификатора задания до перезагрузки?

Спасибо за ваше драгоценное время и помощь.


person alper    schedule 28.04.2017    source источник


Ответы (1)


Есть две основные причины, по которым идентификаторы заданий могут быть переработаны:

  • достигнут максимальный идентификатор задания (см. MaxJobId в slurm.conf)
  • контроллер Slurm был перезапущен с FirstJobId установленным на новое значение

Помимо этого, Slurm всегда будет увеличивать идентификаторы заданий.

Обратите внимание, что информация о задании в базе данных не перезаписывается; у них есть уникальный идентификатор, который отличается от идентификатора задания. sacct имеет параметр -D, --duplicates для просмотра всех заданий в базе данных. По умолчанию он показывает только самую последнюю среди всех тех, которые имеют одинаковый идентификатор задания.

person damienfrancois    schedule 02.05.2017
comment
В качестве решения я мог бы дать очень большое значение MaxJobId, например, 1 миллион? и как я могу отключить контроллер Slurm для перезапуска с FirstJobId установленным на новое значение? Обратите внимание, что MaxJobId и FirstJobId были закомментированы в моем файле conf. @дамиенфрансуа - person alper; 02.05.2017