Google поддерживает подстановочные знаки в robots.txt. Следующая директива в файле robots.txt запрещает роботу Googlebot сканировать любую страницу с любыми параметрами:
Disallow: /*?
Это не помешает многим другим поисковым роботам сканировать эти URL-адреса, поскольку подстановочные знаки не являются частью стандартного файла robots.txt.
Google может занять некоторое время, чтобы удалить заблокированные вами URL-адреса из поискового индекса. Дополнительные URL-адреса могут индексироваться в течение нескольких месяцев. Вы можете ускорить процесс, используя функцию «Удалить URL-адреса» в инструментах для веб-мастеров после того, как они были заблокированы. Но это ручной процесс, когда вам нужно вставить каждый отдельный URL-адрес, который вы хотите удалить.
Использование этого правила robots.txt также может повредить рейтингу вашего сайта в Google, если Googlbot не найдет версию URL без параметров. Если вы часто ссылаетесь на версии с параметрами, вы, вероятно, не хотите блокировать их в robots.txt. Было бы лучше использовать один из других вариантов ниже.
Лучше использовать метатег rel canonical на каждой из ваших страниц.
Таким образом, оба ваших примера URL-адресов будут иметь следующее в разделе заголовка:
<link rel="canonical" href="http://www.site.com/shop/maxi-dress">
Это говорит роботу Googlebot не индексировать так много вариантов страницы, а индексировать только «каноническую» версию выбранного вами URL-адреса. В отличие от файла robots.txt, робот Googlebot по-прежнему сможет сканировать все ваши страницы и присваивать им ценность, даже если они используют различные параметры URL.
Другой вариант — войти в Инструменты Google для веб-мастеров и использовать функцию "Параметры URL" в разделе "Сканирование". .
Оказавшись там, нажмите «Добавить параметр». Вы можете установить для product_type значение «Не влияет на содержимое страницы», чтобы Google не сканировал и не индексировал страницы с этим параметром.
![введите здесь описание изображения](https://i.stack.imgur.com/CH6JU.png)
Сделайте то же самое для каждого из используемых вами параметров, которые не изменяют страницу.
person
Stephen Ostermiller
schedule
01.10.2013