Я ищу алгоритм или метод, который помог бы идентифицировать общие фразы из корпуса текста, имеющего определенный диалект (это из определенного домена, но в моем случае это диалект английского языка) - например, следующий фрагмент может быть из более крупного корпуса, связанного с World или Warcraft или, возможно, с MMORPH.
Игроки управляют аватаром персонажа в игровом мире от третьего или первого лица, исследуя местность, сражаясь с различными монстрами, выполняя квесты и взаимодействуя с неигровыми персонажами (NPC) или другими игроками. Также как и другие MMORPG, World of Warcraft требует от игрока оплаты подписки либо путем покупки предоплаченных игровых карт на определенное количество игрового времени, либо с помощью кредитной или дебетовой карты для регулярной оплаты.
В качестве вывода из вышесказанного я хотел бы выделить следующие общие фразы:
- первое лицо
- Мир Warcraft
- предоплаченные игровые карты
- дебетовая карточка
Примечания:
Есть предыдущие вопросы, похожие на мой здесь и здесь но для пояснения у меня есть следующие отличия:
а. Я пытаюсь использовать существующий инструментарий, такой как NLTK, OpenNLP и т. Д.
б. Я не заинтересован в выявлении других частей речи в предложении
c. Я могу использовать вмешательство человека, когда алгоритм представляет идентифицированные словосочетания существительных эксперту-человеку, а затем эксперт-человек может подтвердить или опровергнуть результаты, однако у нас нет ресурсов для обучения модели языка на данных с ручными аннотациями