Извлечение демографической и контактной информации из неструктурированных текстовых файлов

Я хочу извлечь определенные элементы из большого пула неструктурированных документов. Эти документы могут состоять из 1-5 страниц текста, отформатированного пользователем по-разному, но в большинстве случаев содержат как минимум:

Имя
Адрес (физический)
Адрес электронной почты
Номер телефона
ссылка на сайт

Я ищу семантический синтаксический анализатор, который может попытаться извлечь эти элементы из документов, чтобы я мог загрузить эту информацию в реляционную базу данных и работать с этими записями как с контактами.

Другие службы, которые я искал, хотя и ценны для других целей, не удовлетворяют эту конкретную потребность.

Любые мысли, предложения или наводки?

text information-extraction text-extraction

jn29098 01.06.2010 источник

Ответы (1)

arrow_upward
0
arrow_downward

Вы нашли ответ на свой вопрос? Я нашел несколько научных статей:

www.cis.upenn.edu/~pereira/papers/crf.pdf

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192&rep=rep1&type=pdf

www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf

Но никаких конкретных примеров кода по реализации любой из этих идей.

Взгляните и на это: stackoverflow.com/questions/953150/general-address-parser-for-freeform-text

(извините, я исключил http, эта система не позволяет мне публиковать более одного URL/ссылки)

user402730 26.07.2010

Извлечение демографической и контактной информации из неструктурированных текстовых файлов

Ответы (1)

Похожие вопросы