Есть ли способ запретить роботу Googlebot индексировать определенные части страницы?

Можно ли настроить директивы для Google до такой степени, чтобы он игнорировал часть страницы, но все же индексировал остальную?

Мы столкнулись с несколькими проблемами, которые могут решить эту проблему, например:

  • RSS-канал / текст в виде тикера новостей на странице, отображающей контент из внешнего источника
  • пользователи, вводящие контактный телефон и т. д., которые хотят, чтобы они были видны на сайте, но предпочли бы, чтобы они не могли работать с Google

Я знаю, что оба вышеперечисленного можно решить с помощью других методов (например, написания контента с помощью JavaScript), но мне интересно, знает ли кто-нибудь, есть ли более чистый вариант, уже доступный от Google?

Я немного покопался в этом и наткнулся на упоминания _ 1_ и googleoff теги, но они кажутся эксклюзивными для Google Search Appliance.

Кто-нибудь знает, есть ли аналогичный набор тегов, которых будет придерживаться Googlebot?

Изменить. Чтобы уточнить, я не хочу идти по опасному пути сокрытия / передачи различного контента в Google, поэтому я ищу "законный" способ достижения того, что я хотел бы здесь делать.


person ConroyP    schedule 30.09.2009    source источник


Ответы (8)


То, о чем вы просите, на самом деле не может быть выполнено, Google либо берет всю страницу, либо не берет ее.

Вы можете проделать несколько хитрых уловок, например, вставить часть страницы, которую вы не хотите индексировать в iFrame, и использовать robots.txt, чтобы попросить Google не индексировать этот iFrame.

person RusHughes    schedule 30.09.2009

Короче говоря, НЕТ - если вы не используете маскировку, Google не рекомендует.

person Oliver Weichhold    schedule 30.09.2009

Пожалуйста, ознакомьтесь с официальной документацией здесь

http://code.google.com/apis/searchappliance/documentation/46/admin_crawl/Preparing.html

Перейти в раздел «Исключение нежелательного текста из индекса»

<!--googleoff: index-->
here will be skipped
<!--googleon: index-->
person burak altundal    schedule 23.12.2011
comment
К сожалению, это относится только к Google Search Appliance, а не к общедоступному веб-сайту Google. - person Phrogz; 17.02.2012

Нашел полезный ресурс для использования определенного дублированного контента и запрета индексирования такого контента поисковой системой.

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index>
person Monazir    schedule 12.02.2017

На вашем сервере определите поискового бота по IP с помощью PHP или ASP. Затем введите IP-адреса, которые попадают в этот список, версией страницы, которую вы хотите проиндексировать. В этой дружественной поисковой системе версии вашей страницы используйте тег канонической ссылки, чтобы указать поисковой системе версию страницы, которую вы не хотите индексировать.

Таким образом, страница с содержимым, которое нужно проиндексировать, будет проиндексирована только по адресу, в то время как будет проиндексирован только контент, который вы хотите проиндексировать. Этот метод не заблокирует вас поисковыми системами и полностью безопасен.

person Community    schedule 30.09.2009
comment
Как отмечено в отдельном комментарии, это может привести к удалению вашего сайта из Google. - person Phrogz; 17.02.2012

Да, определенно вы можете запретить Google индексировать некоторые части вашего веб-сайта, создав специальный файл robots.txt и записав, какие части вы не хотите индексировать, например, wpadmins, конкретный пост или страницу, чтобы вы могли легко это сделать, создав этот файл robots. txt. перед созданием проверьте свой сайт robots.txt, например www.yoursite.com/robots.txt.

person MM Nauman    schedule 31.01.2014

Все поисковые системы либо индексируют, либо игнорируют всю страницу. Единственный возможный способ реализовать то, что вы хотите, - это:

(а) иметь две разные версии одной и той же страницы

(б) определить используемый браузер

(c) Если это поисковая система, обслуживайте вторую версию своей страницы.

Эта ссылка может оказаться полезной.

person Anax    schedule 30.09.2009
comment
Действительно (google.com/support/webmasters/bin/): предоставление различных результатов в зависимости от агента пользователя может привести к тому, что ваш сайт будет сочтен ложным и удален из индекса Google. - person Anax; 30.09.2009

Есть мета-теги для ботов, а также есть файл robots.txt, с помощью которого вы можете ограничить доступ к определенным каталогам.

person Bobby    schedule 30.09.2009
comment
мета-теги и robots.txt разрешают или ограничивают доступ на уровне файла. Мне любопытно, можно ли разрешить индексирование страницы, но заблокировать ее определенную часть. - person ConroyP; 30.09.2009