Почему Nutch Solrdedup не может удалить дубликат веб-страницы

У меня есть две веб-страницы с одинаковым содержимым, но разными URL-адресами. Один URL начинается с http://www.example.com, другой начинается с http://example.com. После того, как я использую Solrdedup для удаления повторяющихся данных в Solr. Я нахожу, что эти двое остаются там. Кто-нибудь знает, что здесь происходит?


person Xiao    schedule 25.02.2012    source источник


Ответы (1)


Схема nutch определяет id (= url) как уникальный ключ. Если вам это не подходит, то меняйте. Соответствующая строка в schema.xml:

<uniqueKey>url</uniqueKey>

Но лучшим решением может быть следующее: если вы можете получить доступ к своему серверу через

http://www.example.com

и по

http://example.com

вам следует рассмотреть возможность сканирования только одного из них с использованием фильтров регулярных выражений URL-адресов, чтобы предотвратить дублирование.

person mana    schedule 02.07.2012