Кто-нибудь знает простой способ «читать»/извлекать ключевые слова из файла .pdf? Этот файл не защищен паролем и был создан на том же сервере с использованием класса FPDF.
Я знаю, что есть какой-то «мощный» инструмент (не бесплатный) для управления .pdf, который обеспечивает простой способ получить все метаданные.
Я также знаю, что .pdf хранит все метаданные внутри символа ‹‹ >>, используя специальный символ / перед именем метаданных, чтобы идентифицировать это. Что мне нужно, так это строка после «/Keywords» и сохранение в переменной.
Любая идея разобрать и получить только эту строку?
(в настоящее время я пишу строку JSON внутри ключевых слов, так что это выглядит так: ([{"FirstName":"7bis","LastName":"lastName","email":"[email protected]"}])
)
Открытие файла pdf в текстовом редакторе выглядит так:
/F1 6 0 R
>>
/XObject <<
>>
>>
endobj
7 0 obj
<<
/Keywords ([{"FirstName":"7bis","LastName":"lastName","email":"[email protected]"}])
/Producer (FPDF 1.81)
/CreationDate (D:20160531084015)
>>
endobj
Спасибо за все предложения ;)