Huggingface NER с пользовательскими данными

У меня есть данные csv, как показано ниже.

**token**      **label**
0.45"      length
1-12       size
2.6"       length
8-9-78     size
6mm        length

Всякий раз, когда я получаю текст, как показано ниже

6mm 8-9-78 silver head

Я должен быть в состоянии сказать length = 6mm и size = 8-9-78. Я новичок в мире НЛП, я пытаюсь решить эту проблему с помощью Huggingface NER. Я просмотрел различные статьи. Я не понимаю, как тренироваться с моими собственными данными. Какие model/tokeniser следует использовать? Или я должен построить свой собственный? Любая помощь будет оценена по достоинству.

rmn.nish 22.07.2021 источник

Ответы (1)

arrow_upward
1
arrow_downward

Возможно, я бы посмотрел на сопоставление с образцом spaCy + NER для начала. Правила сопоставления шаблонов, предоставляемые spacy, действительно эффективны, особенно в сочетании со статистическими моделями NER. Вы даже можете использовать разработанные шаблоны для создания собственной модели NER. Это даст вам хорошее представление о том, где у вас все еще есть пробелы или сложности, которые могут потребовать чего-то еще, например Huggingface и т. д.

Если вы готовы платить, вы также можете использовать чудо, которое обеспечивает приятный пользовательский интерфейс с взаимодействием Human In the Loop.

Добавление объектов REGEX в Matcher SpaCy

scarpacci 24.07.2021

Huggingface NER с пользовательскими данными

Ответы (1)

Похожие вопросы