Закодированный поток объектов Pdf

У меня есть PDF-файл, закодированный в странной кодировке, которую я не могу прочитать.

Это пример потока объектов, когда я читаю буфер:

BT 1 0 0 -1 9670 5386 Tm (.&RY!) Tj 610 0 Td (.&R%!) Tj 570 0 Td (.%R$!) Tj -10310 -244 Td (KSAK4UOH^.]SKHFS.@SKHF^S.H]) Tj 5954 0 Td (!V) Tj -961 0 Td (!&#!%#%!!") Tj 1356 0 Td (&!!) Tj -2722 0 Td (&.!!!!!'%W!$&&"b) Tj ET

Я пытался распаковать с помощью pdftk и qpdf, но это не сработало.

Вроде зашифровано, но когда делаю qpdf --show-encryption file.pdf, пишет: "файл не зашифрован".

Когда я использую pdftotext file.pdf output.txt, я могу отлично прочитать выходной файл, поэтому я думаю, что это должна быть специальная кодировка...

Какие-либо предложения?


person ja_anaya    schedule 19.06.2013    source источник
comment
Это похоже на поток содержимого страницы, какой-то xobject или какую-то аннотацию. То, что у вас есть, это не PDF, а просто его часть.   -  person mkl    schedule 19.06.2013
comment
Да, я знаю, но весь буфер выглядит так, и это pdf-файл версии 1.3.   -  person ja_anaya    schedule 19.06.2013
comment
Начинается с %PDF-1.3? Если это не так, это не полный PDF.   -  person mkl    schedule 19.06.2013
comment
Да: %PDF-1.3 %\E2\E3\CF\D3 58 0 obj   -  person ja_anaya    schedule 19.06.2013
comment
Хорошо... 2 замечания... Между 1.3 и % должен быть разрыв строки. Здесь? Если нет, файл поврежден и не подлежит восстановлению. И, кроме того, \E2 и т. д. на самом деле должны быть каким-то специальным символом, отличным от ASCII. Похоже, что эти специальные символы закодированы с использованием '\' и шестнадцатеричного кода символа. Это может быть обратимо.   -  person mkl    schedule 19.06.2013


Ответы (1)


Ваш PDF-файл закодирован с помощью CMAP — http://blog.idrsolutions.com/2012/05/understanding-the-pdf-file-format-embedded-cmap-tables/

person joserobleda    schedule 20.06.2013