Я использую Apache PDFBox для сканирования PDF-файлов в поисках ссылок на определенный файл.
Мне нужно отсканировать около тысячи PDF-файлов, и большинство ссылок (фактически все, кроме одной, насколько я вижу сейчас) найдены.
Однако в PDF-документе есть одна конкретная ссылка, которую PDFBox просто игнорирует. Если я открою PDF-файл с помощью Foxit и проверю свойства ссылки, он будет выглядеть точно так же, как и все остальные ссылки (которые действительно будут найдены).
Вот код, который я использую для перебора ссылок:
for( Object p : pages ) {
PDPage page = (PDPage)p;
List<?> annotations = page.getAnnotations();
for( Object a : annotations ) {
PDAnnotation annotation = (PDAnnotation)a;
if( annotation instanceof PDAnnotationLink ) {
PDAnnotationLink link = (PDAnnotationLink)annotation;
/* Do stuff with the link */
}
}
}
В затронутом PDF-файле page.getAnnotations()
действительно возвращает пустой список.
Есть ли другие типы ссылок, кроме аннотаций, о которых мне следует знать?