Последние совместимые версии Nutch и Solr

Я вижу различные комбинации версий Nutch и Solr, которые используют люди, публикующие сообщения на эту тему в Интернете. Какие последние стабильные (не бета-версии) и совместимые версии Nutch и Solr я могу загрузить и настроить без создания исходных кодов и просто настройки?


person MarioCannistra    schedule 15.05.2013    source источник


Ответы (5)


Вы можете использовать Nutch 2.1 или Nutch 1.6. Если вы хотите использовать HBase, вам нужно использовать Nutch 2.x. Потому что nutch 1.6 не поддерживает Hbase. Я использую nutch 2.1, HBase 0.90.x или 0.94.5 и Solr 4.3.0.

Между двумя версиями Solr (Solr 3.x и Solr 4.x) произошли серьезные изменения. Вы должны выбрать один из них в соответствии с вашими требованиями. Пример: Solr4 поддерживает cloud лучше.

person cguzel    schedule 16.05.2013

Вот некоторые рекомендуемые совместимые версии Nutch и Solr, основанные на том, что создатели Nutch объявляют на своем веб-сайте здесь:

+-------+--------+
| Nutch |  Solr  |
+-------+--------+
| 2.3.1 | 4.10.3 |
|   2.3 |  4.8.1 |
+-------+--------+

Не стесняйтесь добавлять больше версий. Инструмент, который я использовал для создания этой таблицы, можно найти здесь.

person nbro    schedule 01.12.2016

Какую ОС вы используете?

В Windows Nutch 1.2 была последней версией, которую мне удалось заставить работать.

В Linux Nutch 1.6 очень хорошо работает с SOLR.

Это было в сочетании с SOLR 3.5 (из-за других зависимостей), но нет причин не работать с SOLR 3.6 или 4.3.

Руководство по Nutch

person nimeshjm    schedule 15.05.2013
comment
Я использую Ubuntu Server 12.04 LTS. Я только что попробовал SOLR 4.3.0 и Nutch 1.6. Оба работают (Solr работает в Tomcat, а Nutch успешно просканировал небольшой сайт). Когда я попытался запустить команду Nutch solrindex, чтобы интегрировать их и проиндексировать просканированный сайт с помощью solr, я получил ошибку java.io.IOException Job! ошибка. Никаких дополнительных подробностей в журналах solr или nutch. Мне интересно, может ли это быть связано с несовместимостью между двумя версиями... - person MarioCannistra; 16.05.2013
comment
Файл hadoop.log обычно содержит более подробную информацию. Можете ли вы опубликовать трассировку стека ошибки? Если больше подробностей нет, попробуйте изменить conf/log4j.properties и изменить уровни отладки с INFO на DEBUG. - person nimeshjm; 16.05.2013
comment
тем временем я следовал другому процессу: я запустил Solr, используя Jetty вместо Tomcat. Кажется, что когда учебник Nutch говорит вам скопировать файл схемы из Nutch в Solr, этого недостаточно. Также необходимо отредактировать файл схемы в каталоге /collection1/conf. Мне пришлось добавить 5 определений полей для сегмента, повышения, дайджеста, tstamp, привязки. Теперь этап интеграции работает нормально, и Solr проиндексировал контент. И последнее: относительные URL-адреса не учитывались, и мне пришлось добавить +^/ в /nutch/conf/domain-urlfilter.txt. - person MarioCannistra; 16.05.2013

Ранее в этом году я внедрил Nutch 1.6 и Solr 3.6.2 в производственную систему для крупной финансовой фирмы. Они очень хорошо работают вместе.

person Butifarra    schedule 16.05.2013
comment
вы использовали Tomcat или Jetty для Solr? - person MarioCannistra; 16.05.2013
comment
Я использовал оба, и в обоих случаях они проксируются через Apache. - person Butifarra; 17.05.2013
comment
Привет, Клод. Вы когда-нибудь пробовали Nutch 2.2.1 с HBase в производственной системе? - person sunskin; 03.10.2013
comment
Нет, хотя я протестировал версию 2.x и обнаружил, что она не так стабильна, как 1.6. Старая, более стабильная версия обеспечивала все функции, которые мы стремились реализовать в этом проекте. - person Butifarra; 17.10.2013

Я использую -

  • Апач Нутч 2.3.1
  • Солер 5.2.1
  • HBase 0.94.14

И эта комбинация работает отлично!

person Kaidul    schedule 19.12.2016