Парсеры текста Java с открытым исходным кодом

Существует ли единый анализатор текста Java, который можно использовать для анализа документов Office (Windows), документов OpenOffice и PDF-файлов? В противном случае мне нужно использовать что-то вроде Apache POI для документов Word и других библиотек для OpenOffice и PDF-файлов? Если да, то каковы наилучшие варианты для OpenOffice и PDF?


person Izza    schedule 22.06.2011    source источник


Ответы (2)


Tika Apache:

Инструментарий Apache Tika™ обнаруживает и извлекает метаданные и структурированный текст из различных документов с помощью существующих библиотек синтаксических анализаторов.

Не уверен, что это квалифицируется как «одиночный» для ваших целей.

person JasonPlutext    schedule 22.06.2011
comment
что означает извлечение метаданных? Это то же самое, что извлечение основного текста из документа? В остальном это выглядит нормально. - person Izza; 23.06.2011
comment
+1. Я использовал это. Это в значительной степени, кажется, делает работу. Небольшим недостатком является то, что, поскольку он использует множество существующих библиотек, требуется куча банок. - person Izza; 24.06.2011

Если задача заключается в чтении PDF-документов, лучше всего подойдет iText. Для документов на основе Microsoft Office и OpenOffice (LibreOffice) моим решением будет POI.

person Anantha Sharma    schedule 22.06.2011
comment
это бесплатно с точки зрения того, что вы должны выпустить исходный код приложения, использующего API-интерфейс itex. quip с сайта. Покупка такой лицензии обязательна, как только вы начинаете коммерческую деятельность с использованием программного обеспечения iText, не раскрывая исходный код ваших собственных приложений. itextpdf.com/terms-of-use/index.php - person Anantha Sharma; 22.06.2011
comment
POI не может читать документы на основе OpenOffice (LibreOffice), насколько я знаю. PDF Box — это альтернатива Apache, которая может читать PDF-документы. - person JasonPlutext; 23.06.2011