как отключить/включить индексацию на веб-странице

Я использую Nutch 1.6 и Solr 4.3 на Ubuntu Server 12.04. Я хотел бы включать и выключать индексирование контента. Есть ли способ указать это поведение на моих HTML-страницах, чтобы Solr мог вести себя соответствующим образом?

Например, при использовании Google Search Appliance я бы использовал теги "googleon" - "googleoff" вокруг контента на странице, который я не хочу индексировать (заголовки, нижние колонтитулы, строки авторских прав и т. д.).

благодарю вас


person MarioCannistra    schedule 17.05.2013    source источник


Ответы (2)


Вам нужно будет создать собственный плагин для Nutch, чтобы реализовать это поведение. Ниже приведены некоторые соответствующие ссылки с примерами.

person Paige Cook    schedule 17.05.2013
comment
Вторая ссылка очень ясно показывает, что должно произойти. У меня есть такая же реализация для таргетинга на пользовательские теги, введенные нашей системой шаблонов, поэтому я думаю, что написание аналогичного плагина поможет вам, Зандер. - person Butifarra; 17.05.2013
comment
Спасибо Пейдж и Клод. Попробую этот подход. - person MarioCannistra; 20.05.2013

Существует текстовый файл «robots.txt», который предоставляет поисковым системам информацию о том, на каких html-страницах программа может или не может искать контент. По ссылке FAQ robots.txt: Как остановить индексирование вы найдете всю информацию.

person alfeliz    schedule 17.05.2013
comment
этот файл контролирует активность поисковых роботов в веб-папке, в которой он размещен. Вместо этого я имею в виду способ управления индексацией внутри страницы с помощью тегов (пожалуйста, погуглите теги googleoff/googleon для более подробной информации) - person MarioCannistra; 17.05.2013