Извлечение демографической и контактной информации из неструктурированных текстовых файлов

Я хочу извлечь определенные элементы из большого пула неструктурированных документов. Эти документы могут состоять из 1-5 страниц текста, отформатированного пользователем по-разному, но в большинстве случаев содержат как минимум:

  • Имя
  • Адрес (физический)
  • Адрес электронной почты
  • Номер телефона
  • ссылка на сайт

Я ищу семантический синтаксический анализатор, который может попытаться извлечь эти элементы из документов, чтобы я мог загрузить эту информацию в реляционную базу данных и работать с этими записями как с контактами.

Другие службы, которые я искал, хотя и ценны для других целей, не удовлетворяют эту конкретную потребность.

Любые мысли, предложения или наводки?


person jn29098    schedule 01.06.2010    source источник


Ответы (1)


Вы нашли ответ на свой вопрос? Я нашел несколько научных статей:

www.cis.upenn.edu/~pereira/papers/crf.pdf

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192&rep=rep1&type=pdf

www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf

Но никаких конкретных примеров кода по реализации любой из этих идей.

Взгляните и на это: stackoverflow.com/questions/953150/general-address-parser-for-freeform-text

(извините, я исключил http, эта система не позволяет мне публиковать более одного URL/ссылки)

person user402730    schedule 26.07.2010