Перемещение OCR из PDF в другой — Java

Добрый день, у меня проблема в моем проекте, это сжатие PDF, процесс выглядит следующим образом: Извлечение изображений из PDF Зависание OCR Compression Stock OCR + Объединение изображения и преобразование PDF на страницу Объединение всех сгенерированных pdf с OCR, OCR PDFcon один в качестве конечного продукта. Размер моего исходного файла составляет 11 МБ и 4,2 МБ в сжатом виде. Весь процесс работает отлично, но у меня есть проблема со скоростью процесса оптического распознавания символов. Я проверял в Интернете, и я нашел способ обойти этот процесс, который получает текстовый слой исходного PDF-файла и передает его в окончательный сжатый PDF-файл, попробуйте некоторые коды, такие как удалить все изображения PDF и быть в одиночестве с текстовым слоем, и вставить мои сжатые изображения, но проблема по сравнению с обычным процессом, представленным выше, вес файла увеличивается более чем на 4,2 МБ, что для меня не удобно. При поиске другого решения я обнаружил, что операторы обработки PDF, которые обрабатывались с помощью PDFBox, через PDFStreamParser , PDStream , COSDictionary . Операторы TJ, TW, TZ, TC... и т.д. Мой вопрос: если кто-нибудь знает, как передать TJ, то есть тот, который содержит текст PDF в другой, чтобы увидеть, можно ли передать текстовый слой исходного PDF в окончательный PDF, сжат без меня 4,2 МБ в высоту, чтобы поднять вес, идея состоит в том, чтобы не тратить другие операторы, потому что они могут увеличить вес окончательного PDF, или я ошибаюсь? Если у вас есть другое решение, которое помогло бы мне, был бы очень признателен? .

Извините, если мой английский плохой, если кто-то знает испанский, посоветуйте мне выражаться лучше.

Я использую язык Java.

спасибо

Christian 16.05.2014 источник

comment

Вместо повторной публикации вашего вопроса получите текстовый слой PDF как есть и передайте его в другой PDF с идентичным текстовым телом , возможно, вы попытались улучшить свой вопрос. Основная часть вашего вопроса — это один большой абзац, и читатели перестанут читать его посредине. Кроме того, поскольку у вас уже есть код, который вы хотите улучшить, предоставьте из него основные блоки. - mkl 21.05.2014

comment

извините меня, но попробуйте объяснить небольшой проект, который я делаю, чтобы у них была идея, которая есть. Действительно, если есть код, в котором я могу удалить изображения слоев в PDF-файле, а также удалить текстовый слой PDF-файла, но мне не удалось сохранить память и передать ее в другой конец PDF-файла, не затрагивая сжатие. Код я нашел на сайте библиотеки PDFBox, свяжите коды, чтобы они могли мне помочь, спасибо. Кто-нибудь помогите мне и расскажите, как загрузить код в это объявление, я новичок и не очень хорошо его использовал. Спасибо еще раз - Christian 22.05.2014

comment

Вы всегда говорите, что есть кофе, которым вы пользуетесь, и что вы его нашли, но вы не добавляете его к своему вопросу и не даете ссылку на точный код, который вы нашли. Пожалуйста, укажите более точно свой код (отредактируйте свой вопрос, чтобы включить его основные части). - mkl 23.05.2014

comment

Возможный дубликат Get текстовый слой PDF как есть и передать его в другой PDF - Amedee Van Gasse 22.08.2017

Перемещение OCR из PDF в другой — Java

Похожие вопросы