Существует ли единый анализатор текста Java, который можно использовать для анализа документов Office (Windows), документов OpenOffice и PDF-файлов? В противном случае мне нужно использовать что-то вроде Apache POI для документов Word и других библиотек для OpenOffice и PDF-файлов? Если да, то каковы наилучшие варианты для OpenOffice и PDF?
Парсеры текста Java с открытым исходным кодом
Ответы (2)
Инструментарий Apache Tika™ обнаруживает и извлекает метаданные и структурированный текст из различных документов с помощью существующих библиотек синтаксических анализаторов.
Не уверен, что это квалифицируется как «одиночный» для ваших целей.
person
JasonPlutext
schedule
22.06.2011
что означает извлечение метаданных? Это то же самое, что извлечение основного текста из документа? В остальном это выглядит нормально.
- person Izza; 23.06.2011
+1. Я использовал это. Это в значительной степени, кажется, делает работу. Небольшим недостатком является то, что, поскольку он использует множество существующих библиотек, требуется куча банок.
- person Izza; 24.06.2011
Если задача заключается в чтении PDF-документов, лучше всего подойдет iText. Для документов на основе Microsoft Office и OpenOffice (LibreOffice) моим решением будет POI.
person
Anantha Sharma
schedule
22.06.2011
это бесплатно с точки зрения того, что вы должны выпустить исходный код приложения, использующего API-интерфейс itex. quip с сайта. Покупка такой лицензии обязательна, как только вы начинаете коммерческую деятельность с использованием программного обеспечения iText, не раскрывая исходный код ваших собственных приложений. itextpdf.com/terms-of-use/index.php
- person Anantha Sharma; 22.06.2011
POI не может читать документы на основе OpenOffice (LibreOffice), насколько я знаю. PDF Box — это альтернатива Apache, которая может читать PDF-документы.
- person JasonPlutext; 23.06.2011