Насколько я понимаю, пакетный (ванильный) градиентный спуск обновляет один параметр для всех данных обучения. Стохастический градиентный спуск (SGD) позволяет обновлять параметр для каждой обучающей выборки, помогая модели быстрее сходиться за счет значительных колебаний потери функции.
Пакетный (ванильный) градиентный спуск устанавливает batch_size=corpus_size
.
SGD устанавливает batch_size=1
.
И мини-пакетные наборы градиентного спуска batch_size=k
, в которых k
обычно 32, 64, 128 ...
Как gensim применяет SGD или мини-пакетный градиентный спуск? Кажется, что batch_words
эквивалент batch_size
, но я хочу быть уверенным.
Эквивалентно ли установка batch_words=1
в модели gensim применению SGD?