Apache Solr — индексирование PDF-файлов

Привет, я пытался сделать это с бинарным дистрибутивом, а также сам скомпилировал исходный код. Пробовал запустить это и с Apache Tomcat. Но я всегда получаю следующую ошибку, когда использую файл PDF для индексации. Я использую post.jar, представленный в примере проекта с Solr.

SimplePostTool: version 1.3
SimplePostTool: POSTing files to http://localhost:8983/solr/update..
SimplePostTool: POSTing file 4538a001.pdf
SimplePostTool: FATAL: Solr returned an error #400 Invalid UTF-8 middle byte 0xe
3 (at char #10, byte #-1)

Я также пытался запустить это как на Win 7 (JDK 1.7), так и на Centos (1.6).

Я искал в Интернете и в системе отслеживания ошибок нашел исправленные версии файлов jar Jetty, но даже после их замены проблема все еще сохраняется.

Я был бы очень признателен за помощь, так как я застрял здесь, я не могу приступить к дальнейшим задачам.

Спасибо


person SarfarazSoomro    schedule 29.03.2012    source источник


Ответы (1)


Обновления Solr представляют собой определенный формат XML, поэтому он отклоняет файл PDF.

Вы можете настроить обработчик запроса на извлечение, который будет анализировать файл PDF, а затем обрабатывать извлеченный текст как обновление.

См.: http://wiki.apache.org/solr/ExtractingRequestHandler.

person Walter Underwood    schedule 29.03.2012