Робот Googlebot иногда индексирует один из наших сайтов с неверным параметром строки запроса. Я не уверен, как он получает этот параметр строки запроса (похоже, нет сайтов, ссылающихся на нас с плохими ссылками, и ничто на нашем сайте не вставляет неправильное значение). Как и ожидалось, из-за неверного параметра сайт выдает ошибку 500.
У меня создалось впечатление, что Google не будет индексировать страницы, возвращающие ошибку 500, но оказалось, что это так. Итак, теперь у меня есть два вопроса:
1) Почему робот Googlebot вставляет случайные неверные значения строки запроса? (Меня действительно не волнует ответ на этот вопрос, но если бы мы могли что-то сделать, чтобы этого избежать, это решило бы нашу проблему.)
2) Зачем Google индексировать страницу, которая возвращает ошибку 500?
Вот одна из ошибочных ссылок, созданных роботом Google и проиндексированных Google:
http://www.pbs.org/teacherline/catalog/browse/?sa=4&gb=baqhuxts&gb=20&gb=21&num=20&page=2&js=0&sa=1
Плохой параметр - gb = baqhuxts. Ожидается, что параметр 'gb' будет целым числом. Если вы удалите этот параметр из строки запроса, вы должны увидеть красивую страницу каталога.
Что касается решений nofollow и robots.txt: [УДАЛЕНО]
Теперь я понимаю, что я идиот, и поставил метатег, указывающий поисковым роботам индексировать страницу. Это было глупо. Я их удаляю. W- (
Если вы выполните поиск в Google по запросу "baqhuxts", то найдете что он проиндексировал 10 страниц с этим плохим параметром. Но каждая из этих страниц возвращает ошибку 500. Есть ли у кого-нибудь представление о том, почему Google считает, что это допустимые страницы для индексации?