Моя команда использует экземпляр графического процессора для запуска приложений машинного обучения, основанных на тензорном потоке, yolo, компьютерного зрения, а также использует его для обучения моделей машинного обучения. Он стоит 7 долларов в час и имеет 8 графических процессоров. Пытался сократить расходы на это. Нам нужно 8 графических процессоров для более быстрого обучения, и иногда многие люди могут использовать разные графические процессоры одновременно.
В нашем случае мы иногда вообще не используем графические процессоры (8 графических процессоров) как минимум 1-2 недели в месяц. Но использование графического процессора может произойти в течение этого времени, а может и не быть. Поэтому я хотел знать, есть ли способ редактировать код и выполнять все операции с интенсивным процессором, когда графический процессор не нужен, через недорогой экземпляр процессора. И включайте экземпляр gpu только при необходимости, используйте его, а затем остановите, когда работа будет выполнена.
Я думал об использовании efs для размещения кода в общей файловой системе, а затем запуска оттуда, но я прочитал статью (https://www.jeffgeerling.com/blog/2018/getting-best-performance-out-amazon-efs), где написано, что я никогда не должен запускать код с сетевых дисков, потому что скорость может стать очень низкой. Поэтому я не знаю, хорошо ли запускать приложение машинного обучения из файловой системы efs. Я думал о создании виртуальных сред в папках в efs, но не думаю, что это хорошая идея.
Может ли кто-нибудь предложить хорошие способы достижения этого и снижения затрат. И если вы предлагаете использовать экземпляр с меньшим количеством графических процессоров, которые я рассмотрел, но нам иногда требуется 8 графических процессоров для более быстрого обучения, но мы вообще не используем графические процессоры в течение 1-2 недель, но расходы все равно возникают.
Предложите способ достижения низкой стоимости для этого варианта использования без использования спотовых или зарезервированных экземпляров. заранее спасибо