Парсеры текста Java с открытым исходным кодом

Существует ли единый анализатор текста Java, который можно использовать для анализа документов Office (Windows), документов OpenOffice и PDF-файлов? В противном случае мне нужно использовать что-то вроде Apache POI для документов Word и других библиотек для OpenOffice и PDF-файлов? Если да, то каковы наилучшие варианты для OpenOffice и PDF?

Izza 22.06.2011 источник

Ответы (2)

arrow_upward
2
arrow_downward

Tika Apache:

Инструментарий Apache Tika™ обнаруживает и извлекает метаданные и структурированный текст из различных документов с помощью существующих библиотек синтаксических анализаторов.

Не уверен, что это квалифицируется как «одиночный» для ваших целей.

JasonPlutext 22.06.2011

comment

что означает извлечение метаданных? Это то же самое, что извлечение основного текста из документа? В остальном это выглядит нормально. - Izza; 23.06.2011

comment

+1. Я использовал это. Это в значительной степени, кажется, делает работу. Небольшим недостатком является то, что, поскольку он использует множество существующих библиотек, требуется куча банок. - Izza; 24.06.2011

arrow_upward
2
arrow_downward

Если задача заключается в чтении PDF-документов, лучше всего подойдет iText. Для документов на основе Microsoft Office и OpenOffice (LibreOffice) моим решением будет POI.

Anantha Sharma 22.06.2011

comment

это бесплатно с точки зрения того, что вы должны выпустить исходный код приложения, использующего API-интерфейс itex. quip с сайта. Покупка такой лицензии обязательна, как только вы начинаете коммерческую деятельность с использованием программного обеспечения iText, не раскрывая исходный код ваших собственных приложений. itextpdf.com/terms-of-use/index.php - Anantha Sharma; 22.06.2011

comment

POI не может читать документы на основе OpenOffice (LibreOffice), насколько я знаю. PDF Box — это альтернатива Apache, которая может читать PDF-документы. - JasonPlutext; 23.06.2011

Парсеры текста Java с открытым исходным кодом

Ответы (2)

Похожие вопросы