В этом руководстве по TensorFlow вы можете использовать N количество Графические процессоры для распределения N мини-пакетов (каждый из которых содержит M обучающих выборок) каждому графическому процессору и одновременного вычисления градиентов.
Затем вы усредняете градиенты, собранные с N графических процессоров, и обновляете параметры модели.
Но это имеет тот же эффект, что и использование одного графического процессора для вычисления градиентов N * M обучающих выборок с последующим обновлением параметров.
Поэтому мне кажется, что единственным преимуществом является то, что вы можете использовать мини-партию большего размера за то же время.
Но обязательно ли лучше, если мини-партия большего размера?
Я подумал, что вам не следует использовать мини-серию большого размера, чтобы сделать оптимизацию более устойчивой к седловым точкам.
Если мини-пакет большего размера действительно не лучше, почему вам нужно заботиться об обучении с использованием нескольких графических процессоров или даже о многосерверном обучении?
(Приведенный выше учебник представляет собой синхронное обучение. Если это было асинхронное обучение, я вижу достоинства, поскольку параметры будут обновляться без усреднения градиентов, рассчитанных каждым графическим процессором)