Предсказание пропущенного слова в тексте

Я знаю о BERT и других решениях, когда вы маскируете некоторые слова и пытаетесь их предсказать. Но допустим, у меня есть текст:

Трансформеры взяли штурмом Natural Processing, преобразовывая область как на дрожжах. Новые, более крупные и улучшенные модели для решения практически любых задач, эталонов производительности в самых разных задачах.

И я не могу заранее сказать БЕРТУ, где маскировка. Я ищу алгоритм, который может понять, где находятся пропущенные слова, и после этого предсказать их.


person illuminates    schedule 06.01.2020    source источник


Ответы (1)


Что вы можете сделать, так это проверить каждую позицию в тексте (я бы рекомендовал начать с позиции 2), сравнить, входит ли следующее слово, присутствующее в тексте, в число наиболее вероятных следующих слов в соответствии с моделью, например:

«Трансформеры взяли штурмом компанию Natural Processing [...]»

  1. Первая итерация:

Ввод: «Маска трансформатора».

Сравните: MASK / "иметь"

  1. Вторая итерация:

Ввод: «Трансформер забрал МАСКУ»

Сравните: MASK / "the"

  1. Третья итерация:

Ввод: «Трансформер взял МАСКУ».

Сравните: MASK / "of" - Здесь у вас, вероятно, будет очень низкая вероятность. Это может помочь вам проверить, может ли это быть место для пропущенного слова.

Этот пост может помочь вам достичь этого программно: >Предсказание пропущенных слов в предложении — модель обработки естественного языка

person Tiago Duque    schedule 06.01.2020