Согласно этому сайту http://www.searchable-pdf.com/content.php?lang=en&c=61, PDF-файл может быть доступен для поиска при добавлении текстового слоя.
Я искал техническую спецификацию PDF. Я думаю, что текст можно сохранить в PDF двумя способами: а) как текстовый слой над слоем изображения (как описано на веб-странице выше) б) когда вы создаете PDF из документа Word (с текстом), я не Не думаю, что Word будет хранить весь текст в текстовом слое. Я думаю, он сохранит его в слое изображения? Правильно?
Начиная с PDF 1.4, был добавлен XMP (http://en.wikipedia.org/wiki/Extensible_Metadata_Platform). Но что такое XMP? Это тот «текстовый слой», о котором я говорил выше?
Если сканер выполняет распознавание изображения на изображении, сохраняет ли он текст в «текстовом слое»? Или поле "XMP"? Это может быть только тогда, когда PDF версии 1.4?
И как я могу определить, есть ли в PDF уже текстовые данные? Например: PDF A был отсканирован с помощью OCR, а PDF B — нет. Как я могу узнать, что PDF B должен быть отправлен в отдельный модуль OCR?
pdftotext
в таком файле... Если это так, то это проблема с кодировкой используемого шрифта.... - person Kurt Pfeifle   schedule 10.07.2012