Я видел, что встроенные алгоритмы SageMaker поддерживают распределенное обучение. Однако я не нашел никакой документации о том, как структурировать мои данные и/или мое изображение, содержащее пользовательский алгоритм, чтобы обучение можно было выполнять распределенным образом. Любая помощь здесь будет высоко оценена.
Существуют ли какие-либо ресурсы SageMaker о том, как выполнять распределенное обучение с помощью пользовательского алгоритма?
Ответы (1)
это уже обсуждалось здесь: AWS Пользовательские алгоритмы Sagemaker: как использовать дополнительные экземпляры
По сути, вам необходимо управлять связью между различными контейнерами. Здесь вы найдете несколько указателей: https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-algo.html#your-algorithms-training-algo-running-container-dist-training
В качестве альтернативы вы можете использовать один из встроенных алгоритмов (классификация объектов, обнаружение, сегментация) или одну из встроенных сред DL (TF, MXNet и т. д.). Есть ли какая-то конкретная причина, по которой вы используете пользовательский контейнер?
person
Julien Simon
schedule
21.01.2019