Я хочу извлечь определенные элементы из большого пула неструктурированных документов. Эти документы могут состоять из 1-5 страниц текста, отформатированного пользователем по-разному, но в большинстве случаев содержат как минимум:
- Имя
- Адрес (физический)
- Адрес электронной почты
- Номер телефона
- ссылка на сайт
Я ищу семантический синтаксический анализатор, который может попытаться извлечь эти элементы из документов, чтобы я мог загрузить эту информацию в реляционную базу данных и работать с этими записями как с контактами.
Другие службы, которые я искал, хотя и ценны для других целей, не удовлетворяют эту конкретную потребность.
Любые мысли, предложения или наводки?