Как проверить, что pdf основан на тексте с помощью ITextSharp?

Мне нужно убедиться, что отчет в формате pdf основан на тексте (а не на растровом изображении, однако он может содержать некоторые изображения). Мне не нужно извлекать текст, просто чтобы убедиться, что он основан на тексте.

Есть ли способ выполнить такую ​​проверку с помощью библиотеки ITextSharp?

Заранее спасибо,

Стефан


person stefando    schedule 11.06.2011    source источник
comment
Что вы подразумеваете под текстовым? У него есть хотя бы один извлекаемый символ?   -  person Matt Ball    schedule 11.06.2011
comment
Да, я не уверен, что обязательно будет четкая линия, разграничивающая их, тем более, что растровый текст и реальный текст могут сосуществовать. Если PDF-файл содержит одну страницу текста, за которой следует полностраничное изображение, как это считается? Что, если изображение на самом деле является фотографией?   -  person    schedule 11.06.2011
comment
Мне нужен код для приемочного теста. Я знаю, какой текст/данные должен содержать pdf. Задача состоит в том, чтобы убедиться, что отчет в формате PDF, созданный на основе данных, основан на тексте, то есть это не просто растровое изображение внутри файла PDF, который фактически содержит отформатированный текст.   -  person stefando    schedule 12.06.2011


Ответы (1)


Вы можете легко искать команды рисования текста. Наименьшей работой с вашей стороны будет попытка извлечь текст и посмотреть, есть ли там что-нибудь. В идеале вы должны знать часть текста, который он должен содержать, и искать его. Одного предложения или фразы было бы достаточно для такого рода тестирования.

Извлечение текста с помощью iText в наши дни довольно тривиально. Множество примеров, плавающих вокруг SO и в Интернете.

person Mark Storer    schedule 13.06.2011
comment
Я знаю, что это немного устарело, но есть ли шанс, что вы могли бы опубликовать крошечный пример кода? Я совершенно новичок в iTextSharp и даже не знаю, с какого объекта начать. Я обязательно проголосую за ответ. - person flipdoubt; 09.01.2012