Почему Nutch Solrdedup не может удалить дубликат веб-страницы

У меня есть две веб-страницы с одинаковым содержимым, но разными URL-адресами. Один URL начинается с http://www.example.com, другой начинается с http://example.com. После того, как я использую Solrdedup для удаления повторяющихся данных в Solr. Я нахожу, что эти двое остаются там. Кто-нибудь знает, что здесь происходит?

nutch

Xiao 25.02.2012 источник

Ответы (1)

arrow_upward
2
arrow_downward

Схема nutch определяет id (= url) как уникальный ключ. Если вам это не подходит, то меняйте. Соответствующая строка в schema.xml:

<uniqueKey>url</uniqueKey>

Но лучшим решением может быть следующее: если вы можете получить доступ к своему серверу через

http://www.example.com

и по

http://example.com

вам следует рассмотреть возможность сканирования только одного из них с использованием фильтров регулярных выражений URL-адресов, чтобы предотвратить дублирование.

mana 02.07.2012

Почему Nutch Solrdedup не может удалить дубликат веб-страницы

Ответы (1)

Похожие вопросы