Текстовый поиск Jackrabbit на арабском языке PDF-файл

Я могу успешно выполнить текстовый поиск арабского текстового файла, используя следующий код в Jackrabbit. А вот для арабского PDF-файла тот же поиск не работает. Если я введу какой-либо неарабский текст внутри файла, это даст мне правильный результат, но если я введу в файл арабское слово, это не даст мне никакого результата.

Query query = queryManager.createQuery("select * from [nt:resource] AS resource where contains(resource.*, '%القط%')", Query.JCR_SQL2);

 QueryResult result = query.execute();
 RowIterator ri = result.getRows();

     while (ri.hasNext()) {      
     Row row = ri.nextRow(); 
     System.out.println("Row: " + row.toString()); 
 }

Спасибо

java jackrabbit

Renju 13.04.2011 источник

Ответы (1)

arrow_upward
0
arrow_downward

Возможно, PDFBox не смог разобрать файл. В этом случае в файле журнала должно появиться предупреждение.

Thomas Mueller 28.04.2011

comment

Да, я получил это предупреждение при добавлении файла PDF в репозиторий. Но не могли бы вы сказать мне, что я могу сделать, чтобы PDFBox разобрал файл с арабским содержимым? - Renju; 03.05.2011

comment

Боюсь, я не могу ответить на этот вопрос, так как не знаком с PDFBox. Однако быстрый поиск в Google дал несколько результатов, и кажется, что более новые версии (возможно, все еще бета) PDFBox должны его анализировать. Если нет, спросите в списке PDFBox или задайте другой вопрос здесь. - Thomas Mueller; 03.05.2011

Текстовый поиск Jackrabbit на арабском языке PDF-файл

Ответы (1)

Похожие вопросы