Вопросы по теме 'attention-model'

К чему относится скрытое состояние источника в механизме внимания?
Веса внимания рассчитываются как: Я хочу знать, что означает h_s . В коде тензорного потока кодировщик RNN возвращает кортеж: encoder_outputs, encoder_state = tf.nn.dynamic_rnn(...) Как мне кажется, h_s должно быть...
683 просмотров

Как создать набор данных в том же формате, что и набор данных FSNS для Attention_ocr?
Я попробовал код для ответа в Как создать набор данных в том же формате, что и набор данных FSNS? для класса изображения я получаю следующую ошибку: File "createFsns.py", line 101, in 'image/class': _int64_feature(char_ids_padded), File...
83 просмотров
schedule 21.01.2023

AttributeError: объект 'Tensor' не имеет атрибута 'assign' в модели внимания
Я пытаюсь построить модель классификации документов с вниманием, используя keras (часть модели в статье «Иерархические сети внимания для классификации документов»). Следующие коды являются тестовыми кодами. Я создаю birnn и настраиваемый слой...
3851 просмотров

Иерархическая сеть внимания - model.fit выдает ошибку "ValueError: несоответствие входного размера"
В качестве справочной информации я имею в виду иерархическую сеть внимания используется для классификации настроений. Для кода : мой полный код размещен ниже, но это просто редакция исходного кода, опубликованного автором по ссылке выше. И я...
440 просмотров

Почему в документе для первого внимания не используются вложения слов (Glove, word2vecetc)?
В статье Нейронный машинный перевод путем совместного обучения выравниванию и переводу Bahdanau et. al. почему не используются вложения слов, такие как Glove или word2vec? Я понимаю, что это была статья 2014 года, но текущие реализации статьи на...
225 просмотров

Визуализация самовнимания
Я тренировал простое ГРУ со слоем внимания, и теперь я пытаюсь визуализировать веса внимания (они у меня уже есть). Входные данные - 2 последовательности с горячим кодированием (одна правильная, другая почти такая же, но содержит перестановки букв)....
311 просмотров
schedule 11.10.2023

Как модель трансформатора вычисляет самовнимание?
В модели трансформатора https://arxiv.org/pdf/1706.03762.pdf есть самовнимание, которое вычисляется с помощью softmax на векторах Query (Q) и Key (K) : Я пытаюсь понять умножение матриц: Q = batch_size x seq_length x embed_size K =...
211 просмотров

Почему моя модель внимания хуже модели без внимания
Моей задачей было преобразовать английское предложение в немецкое. Сначала я проделал это с обычной сетью кодировщика-декодера, на которой я получил довольно хорошие результаты. Затем я попытался решить ту же задачу с той же точной моделью, что и...
255 просмотров

В чем разница между двумя разными кодами сообщения Bahdanau's Attention, приведенными в официальных руководствах по Tensorflow?
Я читал и кодировал для задачи машинного перевода и наткнулся на два разных руководства. Одним из них является бумажная реализация создания подписей с использованием визуального внимания , в которой они использовали функции изображения [64,2048]...
37 просмотров