Мне нужно извлечь текст из PDF-файлов счетов и счетов
Макеты файлов могут быть сложными, хотя в основном они заполнены таблицами.
Я уже прочитал несколько десятков статей о формате pdf, о том, как легко нашему мозгу понять его и как сложно машине понять его структуру.
Также загружено несколько инструментов, таких как pdfminer python и некоторые инструменты Java, некоторые даже имеют извлечение макета на основе правил, например LA -PDBtext - это все отличные библиотеки, оставив вам последний шаг.
У Adobe также есть онлайн-сервис под названием exportPdf, но его нельзя настроить
В итоге, я понимаю, что для извлечения текста из структурированных файлов pdf и преобразования его, например, в XML, должен быть некоторый уровень ручной работы.
Я также нашел From Data Extractor, платный инструмент с возможность устанавливать правила извлечения, которые утверждают, что выполняют эту работу, хотя трудно найти подходящее руководство, и оно работает только в Windows.
Я подумал, что могу даже попытаться преобразовать эти файлы в изображения и попробовать tesseract-ocr, но решил попросите совета здесь, прежде чем я потрачу на это больше времени.
Буду очень признателен, если кто-нибудь с таким опытом подскажет.