Добрый день, у меня проблема в моем проекте, это сжатие PDF, процесс выглядит следующим образом: Извлечение изображений из PDF Зависание OCR Compression Stock OCR + Объединение изображения и преобразование PDF на страницу Объединение всех сгенерированных pdf с OCR, OCR PDFcon один в качестве конечного продукта. Размер моего исходного файла составляет 11 МБ и 4,2 МБ в сжатом виде. Весь процесс работает отлично, но у меня есть проблема со скоростью процесса оптического распознавания символов. Я проверял в Интернете, и я нашел способ обойти этот процесс, который получает текстовый слой исходного PDF-файла и передает его в окончательный сжатый PDF-файл, попробуйте некоторые коды, такие как удалить все изображения PDF и быть в одиночестве с текстовым слоем, и вставить мои сжатые изображения, но проблема по сравнению с обычным процессом, представленным выше, вес файла увеличивается более чем на 4,2 МБ, что для меня не удобно. При поиске другого решения я обнаружил, что операторы обработки PDF, которые обрабатывались с помощью PDFBox, через PDFStreamParser , PDStream , COSDictionary . Операторы TJ, TW, TZ, TC... и т.д. Мой вопрос: если кто-нибудь знает, как передать TJ, то есть тот, который содержит текст PDF в другой, чтобы увидеть, можно ли передать текстовый слой исходного PDF в окончательный PDF, сжат без меня 4,2 МБ в высоту, чтобы поднять вес, идея состоит в том, чтобы не тратить другие операторы, потому что они могут увеличить вес окончательного PDF, или я ошибаюсь? Если у вас есть другое решение, которое помогло бы мне, был бы очень признателен? .
Извините, если мой английский плохой, если кто-то знает испанский, посоветуйте мне выражаться лучше.
Я использую язык Java.
спасибо