Я разрабатываю приложение winform на С#, которое преобразует содержимое PDF в текст. Все необходимое содержимое извлекается, кроме содержимого, найденного в выделенном тексте PDF. Пожалуйста, помогите получить рабочий образец для извлечения выделенного текста из pdf. Я использую iTextSharp.dll в проекте
iTextSharp PDF Чтение выделенного текста (выделение аннотаций) с использованием С#
comment
Вы про аннотации? Вам нужно быть более ясным. Аннотации — это элементы, которые не являются частью потока содержимого страницы. Они всегда добавляются вверху страницы и имеют собственный поток появления. Вы можете перечислить их на отдельной панели в Adobe Reader. Мы говорим о таком контенте?
- person Bruno Lowagie   schedule 28.04.2014
Ответы (1)
Предполагая, что вы говорите о комментариях. Пожалуйста, попробуйте это:
for (int i = pageFrom; i <= pageTo; i++) {
PdfDictionary page = reader.GetPageN(i);
PdfArray annots = page.GetAsArray(iTextSharp.text.pdf.PdfName.ANNOTS);
if (annots!=null)
foreach (PdfObject annot in annots.ArrayList) {
PdfDictionary annotation = (PdfDictionary)PdfReader.GetPdfObject(annot);
PdfString contents = annotation.GetAsString(PdfName.CONTENTS);
// now use the String value of contents
}
}
}
Это написано по памяти (я разработчик Java, а не разработчик C#).
person
Bruno Lowagie
schedule
28.04.2014