Зачем Google (или роботу Google) индексировать страницу, возвращающую ошибку 500?

Робот Googlebot иногда индексирует один из наших сайтов с неверным параметром строки запроса. Я не уверен, как он получает этот параметр строки запроса (похоже, нет сайтов, ссылающихся на нас с плохими ссылками, и ничто на нашем сайте не вставляет неправильное значение). Как и ожидалось, из-за неверного параметра сайт выдает ошибку 500.

У меня создалось впечатление, что Google не будет индексировать страницы, возвращающие ошибку 500, но оказалось, что это так. Итак, теперь у меня есть два вопроса:

1) Почему робот Googlebot вставляет случайные неверные значения строки запроса? (Меня действительно не волнует ответ на этот вопрос, но если бы мы могли что-то сделать, чтобы этого избежать, это решило бы нашу проблему.)

2) Зачем Google индексировать страницу, которая возвращает ошибку 500?

Вот одна из ошибочных ссылок, созданных роботом Google и проиндексированных Google:

http://www.pbs.org/teacherline/catalog/browse/?sa=4&gb=baqhuxts&gb=20&gb=21&num=20&page=2&js=0&sa=1

Плохой параметр - gb = baqhuxts. Ожидается, что параметр 'gb' будет целым числом. Если вы удалите этот параметр из строки запроса, вы должны увидеть красивую страницу каталога.

Что касается решений nofollow и robots.txt: [УДАЛЕНО]

Теперь я понимаю, что я идиот, и поставил метатег, указывающий поисковым роботам индексировать страницу. Это было глупо. Я их удаляю. W- (

Если вы выполните поиск в Google по запросу "baqhuxts", то найдете что он проиндексировал 10 страниц с этим плохим параметром. Но каждая из этих страниц возвращает ошибку 500. Есть ли у кого-нибудь представление о том, почему Google считает, что это допустимые страницы для индексации?


person shawnr    schedule 20.08.2009    source источник
comment
Что конкретно в строке запроса ошибочно? То есть, что нужно изменить в этом URI, чтобы получить действительный результат? Это может помочь объяснить, что происходит.   -  person VoteyDisciple    schedule 21.08.2009
comment
Хороший улов @voteydisciple. Я добавил объяснение того, что не так в строке запроса. Ожидается, что параметр 'gb' будет целым числом.   -  person shawnr    schedule 21.08.2009
comment
Авторское право внизу сайта вернулось год назад.   -  person Davis    schedule 21.08.2009
comment
Теперь, когда вы поместили URL-адрес на эту страницу, Google просканирует ее всю!   -  person BoltBait    schedule 21.08.2009


Ответы (2)


Вероятно, это потому, что вы говорите Google проиндексировать его, указав это в своих мета-тегах:

<meta name="robots" content="index,follow">

Попробуйте удалить это! :)

person Dan Diplo    schedule 20.08.2009

к сожалению, я знаю только ответ на №1:

Google будет сканировать такие странные страницы, потому что люди с панелью инструментов Google переходят на несуществующие страницы, и их информация о просмотре передается в Google. Вот почему вы часто найдете проиндексированные страницы, которые не индексируются, например, страницы phpmyadmin, на которые нигде нет ссылок.

person mkoryak    schedule 20.08.2009
comment
Я понимаю, что то, что вы описываете, происходит, и это действительно может быть непростой задачей. Но просмотрите обновленный вопрос - я не хочу внедрять повсеместный запрет на URL-адреса каталогов. Или вы говорите, что на моей странице 500 должен быть метатег, запрещающий индексацию роботов? - person shawnr; 21.08.2009