Huggingface NER с пользовательскими данными

У меня есть данные csv, как показано ниже.

**token**      **label**
0.45"      length
1-12       size
2.6"       length
8-9-78     size
6mm        length

Всякий раз, когда я получаю текст, как показано ниже

6mm 8-9-78 silver head

Я должен быть в состоянии сказать length = 6mm и size = 8-9-78. Я новичок в мире НЛП, я пытаюсь решить эту проблему с помощью Huggingface NER. Я просмотрел различные статьи. Я не понимаю, как тренироваться с моими собственными данными. Какие model/tokeniser следует использовать? Или я должен построить свой собственный? Любая помощь будет оценена по достоинству.


person rmn.nish    schedule 22.07.2021    source источник


Ответы (1)


Возможно, я бы посмотрел на сопоставление с образцом spaCy + NER для начала. Правила сопоставления шаблонов, предоставляемые spacy, действительно эффективны, особенно в сочетании со статистическими моделями NER. Вы даже можете использовать разработанные шаблоны для создания собственной модели NER. Это даст вам хорошее представление о том, где у вас все еще есть пробелы или сложности, которые могут потребовать чего-то еще, например Huggingface и т. д.

Если вы готовы платить, вы также можете использовать чудо, которое обеспечивает приятный пользовательский интерфейс с взаимодействием Human In the Loop.

Добавление объектов REGEX в Matcher SpaCy

person scarpacci    schedule 24.07.2021