Как повторно сканировать документы со статусом ошибки

Вчера у нас возникла проблема, из-за которой поисковый робот gsa не мог войти на наш веб-сайт для сканирования. Из-за этого многие URL-адреса индексируются как страница входа. Я вижу много результатов на странице поиска с заголовком «Пожалуйста, войдите в систему» ​​(заголовок страницы входа). Также, когда я проверяю диагностику индекса, статус сканирования для этих URL-адресов «Retrying URL: Connection reset by peer during fetch.».

Теперь проблема с входом в систему решена, и после повторного сканирования страницы статус сканирования становится успешным, и он получает содержимое страницы, и результаты поиска отображаются с правильным заголовком. Но поскольку я не могу контролировать, что там сканируется это страницы, которые еще не были просканированы повторно и по-прежнему имеют проблему.

Не существует единого URL-адреса, по которому я могу принудительно выполнить повторное сканирование. Отсюда мой вопрос: есть ли способ принудительно выполнить повторное сканирование на основе статуса сканирования ("Retrying URL: Connection reset by peer during fetch.")? Если это конкретно, как насчет повторного сканирования на основе типа статуса сканирования (Errors/Successful/Excluded)?


person icramc    schedule 09.07.2015    source источник


Ответы (2)


  1. Экспортируйте все URL-адреса ошибок в виде файла csv, используя «Индекс> Диагностика> Диагностика индекса».

  2. Откройте CSV и примените фильтр к столбцу статуса сканирования и получите URL-адреса с искомой ошибкой.

  3. Скопируйте эти URL-адреса и перейдите к «Источники контента> Веб-сканирование> Настройка свежести> Повторно сканировать эти шаблоны URL», вставьте и нажмите «Повторно сканировать».

Вот и все. Вы сделали!

PS: Если URL-адресов ошибок больше (> 10000, если я не ошибаюсь), вы не сможете получить их все в одном CSV-файле. В этом случае вы можете делать это партиями.

С уважением,

Мохан

person Mohan kumar    schedule 10.07.2015
comment
Спасибо. Я думал об экспорте, но не знал, что есть место для копирования и вставки этих URL-адресов для повторного сканирования. Знаете ли вы, существует ли ограничение на количество URL-адресов, отправляемых одновременно в форме Настройка свежести › Шаблоны URL-адресов повторного сканирования? - person icramc; 10.07.2015
comment
Экспорт с помощью диагностики индекса имеет ограничение в 10 000 URL-адресов, если вы используете кнопку «Экспорт всех страниц в файл». Для экспорта лучше использовать специальную функцию Экспорт URL-адресов: Индекс › Диагностика › Экспорт URL-адресов, которые не имеют ограничения в 10k. (Но может привести к тому, что файл будет слишком большим, чтобы его можно было открыть в Excel, если вы не выполняете фильтрацию). Я не знаю каких-либо ограничений на количество URL-адресов, которые вы можете вставить в это поле в настройке свежести, но, поскольку он отправляет строковые данные в GSA, не сходите с ума и делайте их партиями, чтобы убедиться, что вы не пропустить любой. - person BigMikeW; 13.07.2015
comment
Извините, я понятия не имею об ограничении количества URL-адресов для отправки при настройке актуальности. - person Mohan kumar; 13.07.2015

Вы можете использовать это, чтобы отправить пакет URL-адресов для повторного сканирования: https://github.com/google/gsa-admin-toolkit/blob/master/interactive-feed-client.html

Я тестировал сразу партиями по 80К.

person Terry Chambers - Onix    schedule 20.07.2015