Текстовый поиск Jackrabbit на арабском языке PDF-файл

Я могу успешно выполнить текстовый поиск арабского текстового файла, используя следующий код в Jackrabbit. А вот для арабского PDF-файла тот же поиск не работает. Если я введу какой-либо неарабский текст внутри файла, это даст мне правильный результат, но если я введу в файл арабское слово, это не даст мне никакого результата.

Query query = queryManager.createQuery("select * from [nt:resource] AS resource where contains(resource.*, '%القط%')", Query.JCR_SQL2);

 QueryResult result = query.execute();
 RowIterator ri = result.getRows();

     while (ri.hasNext()) {      
     Row row = ri.nextRow(); 
     System.out.println("Row: " + row.toString()); 
 }

Спасибо


person Renju    schedule 13.04.2011    source источник


Ответы (1)


Возможно, PDFBox не смог разобрать файл. В этом случае в файле журнала должно появиться предупреждение.

person Thomas Mueller    schedule 28.04.2011
comment
Да, я получил это предупреждение при добавлении файла PDF в репозиторий. Но не могли бы вы сказать мне, что я могу сделать, чтобы PDFBox разобрал файл с арабским содержимым? - person Renju; 03.05.2011
comment
Боюсь, я не могу ответить на этот вопрос, так как не знаком с PDFBox. Однако быстрый поиск в Google дал несколько результатов, и кажется, что более новые версии (возможно, все еще бета) PDFBox должны его анализировать. Если нет, спросите в списке PDFBox или задайте другой вопрос здесь. - person Thomas Mueller; 03.05.2011