UIMA для разбора писем

Я новичок в УИМА.

Я хочу разработать приложение с использованием UIMA и uimaFIT, которое может анализировать любое электронное письмо, связанное с авиабилетами, например электронное письмо с подтверждением, электронное письмо с отменой и т. д., и извлекать из него ценную информацию, такую ​​как номер билета, номер рейса, время отправления, время прибытия, пассажир. Имя и т. д. Как я могу добиться этого с помощью uimaFIT. В настоящее время я пытался использовать uimaFIT, чтобы просто прочитать строку, и с помощью регулярного выражения попытался извлечь информацию, но это кажется слишком сложным, поскольку электронная почта не структурирована. Любые предложения о том, как подключиться к электронной почте и выполнить синтаксический анализ без использования RegEx.

Есть предложения.


person Nitesh Gupta    schedule 25.04.2013    source источник


Ответы (1)


Достаточно ли мал ваш набор типов электронных писем (электронное письмо с подтверждением, электронное письмо с отменой и т. д.)? Если да, то на первом этапе попробуйте провести простую классификацию писем по типам. Затем на следующих шагах вы можете применять различные инструменты в зависимости от типа электронного письма.

В остальном, я думаю, лучше использовать регулярные выражения, даже если это утомительно. Возможно, вы захотите взглянуть на UIMA TextMarker, чтобы быстро реализовать свои регулярные выражения/правила.

  • Номер билета: регулярное выражение
  • Номер рейса: регулярное выражение
  • Время отправления, время прибытия: регулярное выражение
  • Имя пассажира: Person NER (здесь пример uima) (или сопоставить с полем электронной почты To:?)
person Renaud    schedule 25.04.2013