Извлечение информации. Подсчет упоминаний для измерения релевантности

Можно ли посчитать, сколько раз объект упоминается в статье? Например

ABC Company — один из крупнейших производителей автомобилей в мире. It также является крупнейшей компанией по годовому объему производства. It также является вторым по величине экспортером роскошных автомобилей после компании XYZ. И ABC, и XYZ вместе производят более n % от общего объема производства автомобилей в стране.

упоминает компанию ABC 4 раза.


person Joyce Babu    schedule 19.04.2011    source источник


Ответы (1)


Да, это возможно. это комбинация

  • распознавание именованных объектов (NER), что для английского языка является практически решенной проблемой, и
  • разрешение кореференции, которое является предметом текущих исследований (но попробуйте этот пакет) )
person Fred Foo    schedule 19.04.2011
comment
мои искренние извинения - я напечатал там, где работаю, но, редактируя свой текст, я, кажется, непреднамеренно отредактировал эту часть. Вы увидите в моих других ответах, что я последовательна в этом. (скоро удалю этот комментарий) - person John Lehmann; 21.04.2011
comment
@John: -9, которое ты получил, было немного резким. Я этого не ожидал, но и не могу взять на себя полную ответственность за это. Никаких обид с моей стороны, просто будьте осторожны при редактировании своих сообщений :) - person Fred Foo; 21.04.2011