независимый от языка инструмент для распознавания именованных объектов

Кто-нибудь знает, есть ли библиотеки для распознавания именованных объектов, которые не зависят от языка?

Спасибо


person vikifor    schedule 30.05.2012    source источник
comment
Готового инструмента, поддерживающего все языки мира, конечно же, не существует. Вы ищете что-то, что вы можете обучить на своих собственных данных, или инструмент, который работает с кучей языков? Если второе, то какие языки?   -  person Fred Foo    schedule 31.05.2012
comment
Мне нравится разрабатывать инструмент для моего македонского языка. Я знаю, что не может быть независимой библиотеки, но, возможно, есть такие, которые мне мало помогут :)   -  person vikifor    schedule 31.05.2012
comment
Вы можете взять любой из хороших и переобучить его на македонских тегированных данных. Это довольно часто делается с помощью CRF-NER Стэнфорда, и хотя результат будет далек от совершенства, его часто бывает достаточно в качестве базового уровня.   -  person Fred Foo    schedule 31.05.2012


Ответы (1)


Я сомневаюсь.

Теоретически вы можете использовать чистые методы обучения с учителем, если у вас есть большой аннотированный корпус. Однако, если вы не можете использовать правила, эвристики или функции, зависящие от языка, и вам нужна высокая точность и скорость отзыва, размер корпуса должен быть гигантским. Осмелюсь сказать, что аннотированных данных для любого данного человеческого языка, вероятно, недостаточно для такой задачи.

person Lior Kogan    schedule 30.05.2012