Существуют ли какие-либо ресурсы SageMaker о том, как выполнять распределенное обучение с помощью пользовательского алгоритма?

Я видел, что встроенные алгоритмы SageMaker поддерживают распределенное обучение. Однако я не нашел никакой документации о том, как структурировать мои данные и/или мое изображение, содержащее пользовательский алгоритм, чтобы обучение можно было выполнять распределенным образом. Любая помощь здесь будет высоко оценена.


person alim1990    schedule 10.01.2019    source источник


Ответы (1)


это уже обсуждалось здесь: AWS Пользовательские алгоритмы Sagemaker: как использовать дополнительные экземпляры

По сути, вам необходимо управлять связью между различными контейнерами. Здесь вы найдете несколько указателей: https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-algo.html#your-algorithms-training-algo-running-container-dist-training

В качестве альтернативы вы можете использовать один из встроенных алгоритмов (классификация объектов, обнаружение, сегментация) или одну из встроенных сред DL (TF, MXNet и т. д.). Есть ли какая-то конкретная причина, по которой вы используете пользовательский контейнер?

person Julien Simon    schedule 21.01.2019