API для Когда Google последний раз сканировал мой сайт, укажите URL?

У меня есть куча URL-адресов, которые в настоящее время проиндексированы в Google. Учитывая эти URL-адреса, есть ли способ выяснить, когда Google в последний раз сканировал их?

Вручную, если я проверю ссылку в Google и проверю «кэшированную» ссылку, я увижу дату, когда она была просканирована. Есть ли способ сделать это автоматически? Google API какой-то?

Спасибо :)


person sharath    schedule 08.05.2012    source источник


Ответы (3)


Google не предоставляет API для этого типа данных. Лучший способ отследить последнюю просканированную информацию — изучить журналы вашего сервера.

В журналах вашего сервера вы сможете идентифицировать робота Google по его типичному пользовательскому агенту: Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html). Затем вы можете увидеть, какие URL-адреса просканировал Googlebot и когда.

Если вы хотите убедиться, что эти страницы сканирует робот Googlebot, вы можете подтвердить это. с обратным поиском DNS.. Bingbot также поддерживает обратный поиск DNS.

Если вы не хотите вручную анализировать журналы вашего сервера, вы всегда можете использовать что-то вроде splunk или logstash. Оба являются отличными платформами для обработки журналов.

Также обратите внимание, что «кэшированная» дата в поисковой выдаче не всегда совпадает с датой последнего обхода. Робот Googlebot может сканировать ваши страницы несколько раз после даты «кэширования», но не обновлять их кешированную версию. Вы можете думать о «кэшированной дате» как о «последней проиндексированной» дате, но это тоже не совсем правильно. В любом случае, если вам когда-нибудь понадобится переиндексировать страницу, вы всегда можете использовать Инструменты Google для веб-мастеров (GWT). В GWT есть возможность заставить робота Googlebot повторно просканировать страницу, а также повторно проиндексировать страницу. Там недельный лимит 50 или что-то в этом роде.

person eywu    schedule 09.05.2012

<?php

$domain_name = $_GET["url"];

//get googlebot last access
function googlebot_lastaccess($domain_name)
{
    $request = 'http://webcache.googleusercontent.com/search?hl=en&q=cache:'.$domain_name.'&btnG=Google+Search&meta=';
    $data = getPageData($request);
    $spl=explode("as it appeared on",$data);
   //echo "<pre>".$spl[0]."</pre>";
    $spl2=explode(".<br>",$spl[1]);
    $value=trim($spl2[0]);
   //echo "<pre>".$spl2[0]."</pre>";
    if(strlen($value)==0)
    {
        return(0);
    }
    else
    {
        return($value);
    }      
} 

$content = googlebot_lastaccess($domain_name);
$date = substr($content , 0, strpos($content, 'GMT') + strlen('GMT'));
echo "Googlebot last access = ".$date."<br />"; 

function getPageData($url) {
 if(function_exists('curl_init')) {
 $ch = curl_init($url); // initialize curl with given url
 curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); // add useragent
 curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // write the response to a variable
 if((ini_get('open_basedir') == '') && (ini_get('safe_mode') == 'Off')) {
 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); // follow redirects if any
 }
 curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5); // max. seconds to execute
 curl_setopt($ch, CURLOPT_FAILONERROR, 1); // stop when it encounters an error
 return @curl_exec($ch);
 }
 else {
 return @file_get_contents($url);
 }
}
?>

Просто загрузите этот PHP и создайте Cron-Job. Вы можете проверить это следующим образом .../bot.php/url=http://www....

person ekussberg    schedule 26.10.2012

Проверить последний визит бота Google можно по ссылке http://www.gbotvisit.com/.

person user1269100    schedule 25.06.2012