Как запретить Google сканировать/индексировать дубликаты и несуществующие страницы на веб-сайте

Я хочу, чтобы Google прекратил сканирование/индексирование дубликатов и несуществующих страниц на моем веб-сайте.

Индексная страница Google путем автоматического создания параметров URL-адреса с моего сайта, который затем не имеет смысла / не существует страницы, а некоторые из них создают дублированный контент.

Пример:

Google индексирует несуществующие URL этого типа.

http://www.example.com/url-pr1/url-pr2/?keyword=url-pr1&url-pr3=url-pr4

Google индексирует этот тип URL-адресов, что приводит к дублированию контента.

http://www.example.com/page.php?link=url-pr1&url-pr2=url-pr4
//duplicate for page like http://www.example.com/url-pr1/url-pr4/

Я добавил параметры ulr в инструменты для веб-мастеров как No-Urls, но Google продолжает индексировать такие URL.

Как я могу сообщить Google, что эти страницы не существуют или имеют дублированный контент, и не индексировать страницы, автоматически создавая параметры URL.

Должен ли я использовать перенаправление на страницу 404 для параметров URL, которые не имеют смысла, и если да, то как это сделать с помощью htaccess.

Пожалуйста, посмотрите и предложите любой возможный способ сделать это.

Спасибо.


person Community    schedule 20.06.2013    source источник


Ответы (1)


Если URL-адреса на самом деле недействительны, вы должны вернуть ответ 404, что должно помешать Google проиндексировать страницу.

Если URL ведет к дублирующемуся контенту, убедитесь, что на странице есть канонический URL на нем. Это поможет Google распознать, что это дубликат.

person Eric Petroelje    schedule 20.06.2013
comment
как вернуть ответ 404 с помощью htacces. Пробовал так, но не работает RewriteBase / RewriteCond %{REQUEST_URI} !\.(xml|txt|js|css|png|jpg|jpeg|gif|php)$ RewriteRule ^([^/]+)/([^/]+)/([^/]+)/([^/]+)/?$ /error/403.html [L] - person ; 20.06.2013
comment
@TallboY ​​- тебе это не нужно. Если URL-адрес недействителен, Apache должен автоматически выдать ошибку 404. - person Eric Petroelje; 20.06.2013
comment
@ Эрик Петроэлье да, это работает для большинства страниц, но для страниц, которые существуют и к которым обращаются с дополнительными параметрами URL, он не возвращает ответ 404, вместо этого он возвращает страницу без применения css и javascript или с некоторыми другими ошибками. - person ; 20.06.2013
comment
@ Эрик Петроэлье Я хочу, чтобы ресурсы Google правильно индексировали мой сайт, а не тратили ресурсы и время впустую. - person ; 20.06.2013
comment
@TallboY ​​- в этом случае вам нужно будет проверить параметры на самой странице - если они недействительны, вы выдадите 404 из своего PHP-кода. Например: stackoverflow.com/questions/437256 /отправка-404-ошибка-в-php - person Eric Petroelje; 20.06.2013
comment
Да, может поможет, попробую. - person ; 20.06.2013