Введение в LSTM и ГРУ

По сравнению с традиционными ванильными RNN (рекуррентными нейронными сетями) существует два продвинутых типа нейронов: LSTM (нейронная сеть с долговременной кратковременной памятью) и GRU (рекуррентная единица с закрытым входом). В этом блоге мы познакомим вас с механизмом, производительностью и эффективностью двух нейронных сетей.

Градиент

В стандартных RNN в качестве функции активации обычно используется сигмовидная или гиперболическая тангенсная функция активации. У каждой функции есть большие области, где производная очень близка к 0, что означает, что обновления весов малы, а RNN насыщаются. Когда значения градиентов чрезвычайно низкие или высокие, это называется исчезающим градиентом или взрывным градиентом соответственно. LSTM и GRU могут помочь моделям избежать таких проблем, как исчезновение и взрыв градиентов при работе с большими последовательностями данных. Постоянно обновляя свое внутреннее состояние, они могут узнать, что важно помнить, а когда уместно забыть информацию.

ЛСТМ

В структуре LSTM есть три вентиля: входной вентиль для определения количества переданных состояний ячейки должен быть сохранен, вентиль забывания для определения количества текущего состояния должен быть забыт и выходной вентиль для определения количество текущего текущего состояния должно быть выставлено следующим слоям. Диаграмма ячейки LSTM показывает, как информация проходит слева направо и где находятся различные ворота для каждой выполняемой функции.

ГРУ

В структуре GRU есть две функции шлюза: шлюз сброса, чтобы определить, что следует удалить из внутреннего состояния ячейки, прежде чем перейти к следующему временному шагу, и шлюз обновления, чтобы определить, какая часть состояния по сравнению с предыдущим временем step должен использоваться в текущем временном шаге. ГРУ передает только свое важное внутреннее состояние на каждом временном шаге. На технической диаграмме показаны внутренние операции работы ячейки GRU, которая показывает, как уравнения для операций обновления и сброса связаны с матричным умножением и сигмовидными функциями внутри.

На практике GRU, как правило, имеют небольшое преимущество перед LSTM во многих случаях использования, особенно когда ячейки GRU немного проще, чем ячейки LSTM, но механизм производительности неизвестен. Лучше всего построить модель с каждым и посмотреть, какой из них работает лучше.

Введение в LSTM и ГРУ

Градиент

ЛСТМ

ГРУ

Похожие вопросы