iTextSharp PDF Чтение выделенного текста (выделение аннотаций) с использованием С#

Я разрабатываю приложение winform на С#, которое преобразует содержимое PDF в текст. Все необходимое содержимое извлекается, кроме содержимого, найденного в выделенном тексте PDF. Пожалуйста, помогите получить рабочий образец для извлечения выделенного текста из pdf. Я использую iTextSharp.dll в проекте


person Binod    schedule 28.04.2014    source источник
comment
Вы про аннотации? Вам нужно быть более ясным. Аннотации — это элементы, которые не являются частью потока содержимого страницы. Они всегда добавляются вверху страницы и имеют собственный поток появления. Вы можете перечислить их на отдельной панели в Adobe Reader. Мы говорим о таком контенте?   -  person Bruno Lowagie    schedule 28.04.2014


Ответы (1)


Предполагая, что вы говорите о комментариях. Пожалуйста, попробуйте это:

for (int i = pageFrom; i <= pageTo; i++) {
    PdfDictionary page = reader.GetPageN(i);
    PdfArray annots = page.GetAsArray(iTextSharp.text.pdf.PdfName.ANNOTS);
    if (annots!=null)
        foreach (PdfObject annot in annots.ArrayList) {
            PdfDictionary annotation = (PdfDictionary)PdfReader.GetPdfObject(annot);
            PdfString contents = annotation.GetAsString(PdfName.CONTENTS);
            // now use the String value of contents
        }
    }
}

Это написано по памяти (я разработчик Java, а не разработчик C#).

person Bruno Lowagie    schedule 28.04.2014