PDF и текстовый слой

Согласно этому сайту http://www.searchable-pdf.com/content.php?lang=en&c=61, PDF-файл может быть доступен для поиска при добавлении текстового слоя.

Я искал техническую спецификацию PDF. Я думаю, что текст можно сохранить в PDF двумя способами: а) как текстовый слой над слоем изображения (как описано на веб-странице выше) б) когда вы создаете PDF из документа Word (с текстом), я не Не думаю, что Word будет хранить весь текст в текстовом слое. Я думаю, он сохранит его в слое изображения? Правильно?

Начиная с PDF 1.4, был добавлен XMP (http://en.wikipedia.org/wiki/Extensible_Metadata_Platform). Но что такое XMP? Это тот «текстовый слой», о котором я говорил выше?

Если сканер выполняет распознавание изображения на изображении, сохраняет ли он текст в «текстовом слое»? Или поле "XMP"? Это может быть только тогда, когда PDF версии 1.4?

И как я могу определить, есть ли в PDF уже текстовые данные? Например: PDF A был отсканирован с помощью OCR, а PDF B — нет. Как я могу узнать, что PDF B должен быть отправлен в отдельный модуль OCR?

pdf ocr scanning

Jochen Hebbrecht 10.07.2012 источник

comment

Обычно после OCR текст добавляется в «невидимом» режиме рендеринга текста к нормальному содержимому PDF (не дополнительный слой, который делается невидимым, что также техническая возможность в формате PDF; ищите Дополнительный контент в спецификации PDF). ---- Однако в реальных PDF-файлах (как «отсканированных», так и «обычных» PDF-файлах) вы часто обнаружите, что можете выделить текст и скопировать его, но после вставки у вас будет только тарабарщина. Или если вы используете pdftotext в таком файле... Если это так, то это проблема с кодировкой используемого шрифта.... - Kurt Pfeifle 10.07.2012

Ответы (2)

arrow_upward
12
arrow_downward

В спецификации PDF нет упоминания о «текстовом слое». Обычно есть только один способ «хранить» текст: с помощью текстовых операторов. Эти операторы рисуют текст в определенном месте, используя определенный цвет, шрифт, размер шрифта и режим рендеринга текста. Есть несколько режимов рендеринга текста. Для ответа на ваш вопрос текст может быть видимым или невидимым.

Сканер, выполняющий распознавание символов, преобразует как растровое изображение, так и текст в документ PDF. Текст рендерится с использованием режима невидимого рендеринга текста. В результате вы можете выбрать текст с помощью мыши (выделенная область будет отображаться в ожидаемом месте поверх изображения) и вы можете искать текст. Снова результат поиска будет показан в правильном месте.

Что происходит, когда вы создаете PDF из документа Word, зависит от программного обеспечения, которое вы используете для преобразования. Насколько мне известно, эти конвертеры не генерируют изображение, но они будут генерировать видимый текст.

XMP — это метаданные, а не визуальные данные.

Наконец, что касается вашего вопроса об определении наличия в PDF текстовых данных, вот похожий вопрос (только 10k).

Frank 10.07.2012

comment

Некоторые другие вопросы, которые у меня есть: * может ли каждая версия (en.wikipedia.org/wiki/) PDF содержат текст? Есть ли в формате спецификация, которая говорит вам, как хранить текст?‹br/› * если у вас есть PDF-файл, который был распознан, но вы повторно распознаете его с помощью другого механизма распознавания, что произойдет с предыдущим текст распознавания? - Jochen Hebbrecht; 10.07.2012

comment

@JochenHebbrecht: Посмотрите на мой ответ. Там же есть ссылка на спецификацию. Конечно в спецификации есть точные правила хранения текстов (но вы не найдете их в Википедии). - Kurt Pfeifle; 10.07.2012

comment

@Jochen Hebbrecht: Я почти уверен, что механизм повторного распознавания текста обязательно заменит ранее существовавший текст распознавания. (Более слабые откажутся бежать и скажут вам, что они не могут продолжить, потому что там уже есть текст или что-то в этом роде...) - Kurt Pfeifle; 10.07.2012

comment

@FrankRem Аналогичный вопрос, который вы связали, исчез. Можно ли вставить часть информации, которая там была? - Fildor; 15.07.2016

comment

Последняя ссылка все еще не работает :( - jtlz2; 17.09.2019

comment

@ jtlz2 вопрос был удален с тех пор. Поиск может дать вам похожие вопросы. - Frank; 18.09.2019

arrow_upward
7
arrow_downward

Я проголосовал за ответ Фрэнка Рема, потому что он «полный».

Однако позвольте мне добавить несколько деталей:

«Невидимость» текста обеспечивается Tr, оператором режима рендеринга текста 3 в PDF: "Ни заливки, ни обводки текста" (спецификация PDF-1.7, глава 9.3.6).
Взгляните на этот вопрос суперпользователя: "PDF имеет дополнительный пробел во всех словах после запуска Ghostscript" и мои ответы там, чтобы узнать больше о технических деталях (особенно посмотрите на тот, что с заголовком "Как сделать невидимый текст видимым?").

Kurt Pfeifle 10.07.2012

comment

спасибо, ссылка в пункте 2) очень понятна для меня! Вы профи! :-) - Jochen Hebbrecht; 11.07.2012

PDF и текстовый слой

Ответы (2)

Похожие вопросы