Количество тегов NER

Насколько мне известно, в Stanford NER есть модели 3,4 и 7 класса (или теги). Мне нужен стандарт и Java-реализация распознавателя именованных объектов, который имеет более 7 тегов (например, 13 тегов). Я не хочу разрабатывать его самостоятельно, и мне нужно, чтобы он был точным. Существует ли NER, удовлетворяющий этим условиям?

Спасибо


person BlueGirl    schedule 14.06.2016    source источник
comment
Вопросы, в которых нас просят порекомендовать или найти книгу, инструмент, программную библиотеку, учебное пособие или другой сторонний ресурс, не относятся к теме Stack Overflow, поскольку они, как правило, привлекают самоуверенные ответы и спам. Вместо этого опишите проблему и то, что уже было сделано для ее решения.   -  person BadZen    schedule 14.06.2016


Ответы (2)


Стэнфордская система NER может быть переобучена для любого количества тегов. Модели классов 3, 4 и 7 — это всего лишь предварительно обученные модели. Если вы хотите обучить его на большем количестве классов, вам придется собрать обучающие данные с этими классами и переобучить модель.

person Gabor Angeli    schedule 15.06.2016

Пакет Python nltk обеспечивает распознавание именованных объектов (NER), он имеет встроенный классификатор. В нем более 7 классов. Которые

ORGANIZATION - Georgia-Pacific Corp., WHO
PERSON - Eddy Bonte, President Obama
LOCATION - Murray River, Mount Everest
DATE - June, 2008-06-29
TIME - two fifty a m, 1:30 p.m.
MONEY - 175 million Canadian Dollars, GBP 10.40
PERCENT - twenty pct, 18.75 %
FACILITY - Washington Monument, Stonehenge
GPE - South East Asia, Midlothian   

Вы используете Java, поэтому в java есть эквивалентный пакет OpenNLP . Вы можете проверить классификатор в OpenNLP.

Вот SO ссылка, которая доказывает, что OpenNLP эквивалентно nltk

person Rahul K P    schedule 15.06.2016