Использование spacy с архаичными/староанглийскими словами?

Я использую en_core_web_lg для сравнения некоторых текстов на предмет сходства и не получаю ожидаемых результатов.

Проблема, я думаю, в том, что мои тексты в основном религиозны, например: Так было постановлено Тем, Кто есть Источник Божественного вдохновения. Он, воистину, Истолкователь, Мудрый. Кто претендует на откровение непосредственно от Бога до истечения полной тысячи лет, такой человек, несомненно, является лживым самозванцем.

Мой вопрос в том, есть ли способ проверить словарь spacy? Включает ли оно такие слова, как «кто возлагает декрет» или «истинно»?


person Chicago1988    schedule 29.07.2021    source источник


Ответы (1)


Чтобы проверить, знает ли spaCy об отдельных словах, вы можете проверить tok.is_oov (не хватает словарного запаса), где tok — токен из документа.

spaCy обучается на наборе данных под названием OntoNotes. Хотя это включает в себя некоторые более старые тексты, такие как Библия, в основном это относительно недавние газеты и аналогичные источники. Векторы слов обучаются на интернет-тексте. Я бы не ожидал, что он будет хорошо работать с документами того типа, который вы описываете, которые сильно отличаются от того, что он видел раньше.

Я бы посоветовал вам обучить пользовательские векторы слов в вашем наборе данных, которые вы затем можете загрузить в spaCy. Вы также можете ознакомиться с проектом HistWords.

person polm23    schedule 31.07.2021