PDF и текстовый слой

Согласно этому сайту http://www.searchable-pdf.com/content.php?lang=en&c=61, PDF-файл может быть доступен для поиска при добавлении текстового слоя.

Я искал техническую спецификацию PDF. Я думаю, что текст можно сохранить в PDF двумя способами: а) как текстовый слой над слоем изображения (как описано на веб-странице выше) б) когда вы создаете PDF из документа Word (с текстом), я не Не думаю, что Word будет хранить весь текст в текстовом слое. Я думаю, он сохранит его в слое изображения? Правильно?

Начиная с PDF 1.4, был добавлен XMP (http://en.wikipedia.org/wiki/Extensible_Metadata_Platform). Но что такое XMP? Это тот «текстовый слой», о котором я говорил выше?

Если сканер выполняет распознавание изображения на изображении, сохраняет ли он текст в «текстовом слое»? Или поле "XMP"? Это может быть только тогда, когда PDF версии 1.4?

И как я могу определить, есть ли в PDF уже текстовые данные? Например: PDF A был отсканирован с помощью OCR, а PDF B — нет. Как я могу узнать, что PDF B должен быть отправлен в отдельный модуль OCR?


person Jochen Hebbrecht    schedule 10.07.2012    source источник
comment
Обычно после OCR текст добавляется в «невидимом» режиме рендеринга текста к нормальному содержимому PDF (не дополнительный слой, который делается невидимым, что также техническая возможность в формате PDF; ищите Дополнительный контент в спецификации PDF). ---- Однако в реальных PDF-файлах (как «отсканированных», так и «обычных» PDF-файлах) вы часто обнаружите, что можете выделить текст и скопировать его, но после вставки у вас будет только тарабарщина. Или если вы используете pdftotext в таком файле... Если это так, то это проблема с кодировкой используемого шрифта....   -  person Kurt Pfeifle    schedule 10.07.2012


Ответы (2)


В спецификации PDF нет упоминания о «текстовом слое». Обычно есть только один способ «хранить» текст: с помощью текстовых операторов. Эти операторы рисуют текст в определенном месте, используя определенный цвет, шрифт, размер шрифта и режим рендеринга текста. Есть несколько режимов рендеринга текста. Для ответа на ваш вопрос текст может быть видимым или невидимым.

Сканер, выполняющий распознавание символов, преобразует как растровое изображение, так и текст в документ PDF. Текст рендерится с использованием режима невидимого рендеринга текста. В результате вы можете выбрать текст с помощью мыши (выделенная область будет отображаться в ожидаемом месте поверх изображения) и вы можете искать текст. Снова результат поиска будет показан в правильном месте.

Что происходит, когда вы создаете PDF из документа Word, зависит от программного обеспечения, которое вы используете для преобразования. Насколько мне известно, эти конвертеры не генерируют изображение, но они будут генерировать видимый текст.

XMP — это метаданные, а не визуальные данные.

Наконец, что касается вашего вопроса об определении наличия в PDF текстовых данных, вот похожий вопрос (только 10k).

person Frank    schedule 10.07.2012
comment
Некоторые другие вопросы, которые у меня есть: * может ли каждая версия (en.wikipedia.org/wiki/) PDF содержат текст? Есть ли в формате спецификация, которая говорит вам, как хранить текст?‹br/› * если у вас есть PDF-файл, который был распознан, но вы повторно распознаете его с помощью другого механизма распознавания, что произойдет с предыдущим текст распознавания? - person Jochen Hebbrecht; 10.07.2012
comment
@JochenHebbrecht: Посмотрите на мой ответ. Там же есть ссылка на спецификацию. Конечно в спецификации есть точные правила хранения текстов (но вы не найдете их в Википедии). - person Kurt Pfeifle; 10.07.2012
comment
@Jochen Hebbrecht: Я почти уверен, что механизм повторного распознавания текста обязательно заменит ранее существовавший текст распознавания. (Более слабые откажутся бежать и скажут вам, что они не могут продолжить, потому что там уже есть текст или что-то в этом роде...) - person Kurt Pfeifle; 10.07.2012
comment
@FrankRem Аналогичный вопрос, который вы связали, исчез. Можно ли вставить часть информации, которая там была? - person Fildor; 15.07.2016
comment
Последняя ссылка все еще не работает :( - person jtlz2; 17.09.2019
comment
@ jtlz2 вопрос был удален с тех пор. Поиск может дать вам похожие вопросы. - person Frank; 18.09.2019

Я проголосовал за ответ Фрэнка Рема, потому что он «полный».

Однако позвольте мне добавить несколько деталей:

  1. «Невидимость» текста обеспечивается Tr, оператором режима рендеринга текста 3 в PDF: "Ни заливки, ни обводки текста" (спецификация PDF-1.7, глава 9.3.6).
  2. Взгляните на этот вопрос суперпользователя: "PDF имеет дополнительный пробел во всех словах после запуска Ghostscript" и мои ответы там, чтобы узнать больше о технических деталях (особенно посмотрите на тот, что с заголовком "Как сделать невидимый текст видимым?").
person Kurt Pfeifle    schedule 10.07.2012
comment
спасибо, ссылка в пункте 2) очень понятна для меня! Вы профи! :-) - person Jochen Hebbrecht; 11.07.2012