Apache Solr — индексирование PDF-файлов

Привет, я пытался сделать это с бинарным дистрибутивом, а также сам скомпилировал исходный код. Пробовал запустить это и с Apache Tomcat. Но я всегда получаю следующую ошибку, когда использую файл PDF для индексации. Я использую post.jar, представленный в примере проекта с Solr.

SimplePostTool: version 1.3
SimplePostTool: POSTing files to http://localhost:8983/solr/update..
SimplePostTool: POSTing file 4538a001.pdf
SimplePostTool: FATAL: Solr returned an error #400 Invalid UTF-8 middle byte 0xe
3 (at char #10, byte #-1)

Я также пытался запустить это как на Win 7 (JDK 1.7), так и на Centos (1.6).

Я искал в Интернете и в системе отслеживания ошибок нашел исправленные версии файлов jar Jetty, но даже после их замены проблема все еще сохраняется.

Я был бы очень признателен за помощь, так как я застрял здесь, я не могу приступить к дальнейшим задачам.

Спасибо

solr lucene solr-cell

SarfarazSoomro 29.03.2012 источник

Ответы (1)

arrow_upward
3
arrow_downward

Обновления Solr представляют собой определенный формат XML, поэтому он отклоняет файл PDF.

Вы можете настроить обработчик запроса на извлечение, который будет анализировать файл PDF, а затем обрабатывать извлеченный текст как обновление.

См.: http://wiki.apache.org/solr/ExtractingRequestHandler.

Walter Underwood 29.03.2012

Apache Solr — индексирование PDF-файлов

Ответы (1)

Похожие вопросы