Stanford NER — извлечение многословных сущностей

Как я могу пометить словосочетания в Stanford NER? В настоящее время он помечает Federal Reserve Bank of New York как

<wi num="11" entity="ORGANIZATION">Federal</wi> <wi num="12" entity="ORGANIZATION">Reserve</wi> <wi num="13" entity="ORGANIZATION">Bank</wi> <wi num="14" entity="ORGANIZATION">of</wi> <wi num="15" entity="ORGANIZATION">New</wi> <wi num="16" entity="ORGANIZATION">York</wi>

Я хочу, чтобы его признали

<wi num="11" entity="ORGANIZATION">Federal Reserve Bank of New York</wi>

Это возможно?


person Joyce Babu    schedule 18.04.2011    source источник


Ответы (1)


Что-то похожее есть, да. Если вы дадите флаг

-outputFormat inlineXML

тогда вы получите:

<ORGANIZATION>Federal Reserve Bank of New York</ORGANIZATION>

(Обратите внимание, что на самом деле это не меняет работу Stanford NER, а только форматирование вывода. Если вам не нравится какой-либо из предоставленных форматов вывода, довольно просто написать свой собственный.)

person Christopher Manning    schedule 18.04.2011
comment
Спасибо. Это то, чего я хотел. - person Joyce Babu; 19.04.2011
comment
Не могли бы вы указать мне, как создавать пользовательские форматы вывода? - person Joyce Babu; 20.04.2011
comment
Вы должны написать код для этого. Ключевой метод внутренне классифицирует списки токенов: List‹IN› classify(List‹IN›document). Затем вы можете распечатать эти токены, как хотите. Это то, что делает код в PlainTextDocumentReaderAndWriter, который обрабатывает стандартные стили. - person Christopher Manning; 22.04.2011
comment
Метод classify возвращает каждое слово как отдельный токен. Мне не удалось собрать всю сущность воедино. - person Joyce Babu; 22.04.2011