У меня есть текст вместе с записями указателя, некоторые из которых указывают на важные многословные выражения (MWE), встречающиеся в тексте (например, «губчатая кость» для текста по биологии). Я хотел бы использовать записи для создания настраиваемого сопоставителя в spaCy, чтобы я мог распознавать вхождения MWE в тексте. Дополнительным требованием является то, что мне нужны совпадения для сохранения лемматизированных представлений и тегов POS составляющих слов MWE.
Я просмотрел существующие примеры spaCy, которые делают похожие вещи, но, похоже, не могу понять закономерность.