Stanford NER — извлечение многословных сущностей

Как я могу пометить словосочетания в Stanford NER? В настоящее время он помечает Federal Reserve Bank of New York как

<wi num="11" entity="ORGANIZATION">Federal</wi> <wi num="12" entity="ORGANIZATION">Reserve</wi> <wi num="13" entity="ORGANIZATION">Bank</wi> <wi num="14" entity="ORGANIZATION">of</wi> <wi num="15" entity="ORGANIZATION">New</wi> <wi num="16" entity="ORGANIZATION">York</wi>

Я хочу, чтобы его признали

<wi num="11" entity="ORGANIZATION">Federal Reserve Bank of New York</wi>

Это возможно?

java named-entity-recognition stanford-nlp

Joyce Babu 18.04.2011 источник

Ответы (1)

arrow_upward
2
arrow_downward

Что-то похожее есть, да. Если вы дадите флаг

-outputFormat inlineXML

тогда вы получите:

<ORGANIZATION>Federal Reserve Bank of New York</ORGANIZATION>

(Обратите внимание, что на самом деле это не меняет работу Stanford NER, а только форматирование вывода. Если вам не нравится какой-либо из предоставленных форматов вывода, довольно просто написать свой собственный.)

Christopher Manning 18.04.2011

comment

Спасибо. Это то, чего я хотел. - Joyce Babu; 19.04.2011

comment

Не могли бы вы указать мне, как создавать пользовательские форматы вывода? - Joyce Babu; 20.04.2011

comment

Вы должны написать код для этого. Ключевой метод внутренне классифицирует списки токенов: List‹IN› classify(List‹IN›document). Затем вы можете распечатать эти токены, как хотите. Это то, что делает код в PlainTextDocumentReaderAndWriter, который обрабатывает стандартные стили. - Christopher Manning; 22.04.2011

comment

Метод classify возвращает каждое слово как отдельный токен. Мне не удалось собрать всю сущность воедино. - Joyce Babu; 22.04.2011

Stanford NER — извлечение многословных сущностей

Ответы (1)

Похожие вопросы