Функция, которая получает последний URL-адрес перенаправления (перенаправления, сделанные с помощью javascript)

Я знаю, о чем вы думаете: «есть много похожих вопросов», но нет, вы ошибаетесь.

Это правда, что есть много вопросов, которые ищут PHP-код, способный получить последний URL-адрес, я основывался на этих вопросах и ответах, чтобы сделать свой код, но он не работает для всех случаев.

Мне нужна функция, которая всегда возвращает последний URL-адрес (даже если было 1000 перенаправлений) и даже если перенаправление было выполнено с помощью JavaScript, PHP, Apache или другой технологии.

Я пытаюсь сказать, что мой код не возвращает последний во всех случаях, только в некоторых случаях. Я много читал об этом, и я не нашел решения, я с этой проблемой в течение месяца и нуждается в вашей помощи.

Мой код следующий:

function get_real_url($comparator, $url){
$out = "";
    $final_url = get_final_url($url);
    if(strpos($final_url, 'url=') !== FALSE){ //Si devuelve un string
        parse_str($final_url, $out);
        if(!empty($out["url"]))
            return $out["url"];
        else
            return false;
    }else
        return $final_url; //Si devuelve una url completa
}

function get_final_url($url, $timeout = 5)
{
    //$url = str_replace( "&", "&", urldecode(trim($url)) );
    $cookie = tempnam ("/tmp", "CURLCOOKIE");
    $ch = curl_init();
    curl_setopt( $ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 5.1; rv:1.7.3) Gecko/20041001 Firefox/0.10.1" );
    curl_setopt( $ch, CURLOPT_URL, $url );
    curl_setopt( $ch, CURLOPT_COOKIEJAR, $cookie );
    curl_setopt( $ch, CURLOPT_FOLLOWLOCATION, true );
    curl_setopt( $ch, CURLOPT_ENCODING, "" );
    curl_setopt( $ch, CURLOPT_RETURNTRANSFER, true );
    curl_setopt( $ch, CURLOPT_AUTOREFERER, true );
    curl_setopt( $ch, CURLOPT_CONNECTTIMEOUT, $timeout );
    curl_setopt( $ch, CURLOPT_TIMEOUT, $timeout );
    curl_setopt( $ch, CURLOPT_MAXREDIRS, 10 );
    $content = curl_exec( $ch );
    $response = curl_getinfo( $ch );
    curl_close ( $ch );
    if ($response['http_code'] == 301 || $response['http_code'] == 302)
    {
        ini_set("user_agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; rv:1.7.3) Gecko/20041001 Firefox/0.10.1");
        $headers = @get_headers($response['url']);
        if(!$headers) return $url;
        $location = "";
        foreach($headers as $value)
        {
            if (substr(strtolower($value), 0, 9) == "location:")
                return get_final_url( trim( substr( $value, 9, strlen($value) ) ) );
        }
    }
    if(preg_match("/window\.location\.replace\('(.*)'\)/i", $content, $value) || preg_match("/window\.location\=\"(.*)\"/i", $content, $value))
    {
        return get_final_url($value[1]);
    }
    else
    {
        return $response['url'];
    }
}

Какую технологию я должен использовать, чтобы мой код выполнял (при необходимости) код перенаправления javascript и получал последний URL-адрес?


person Carlos    schedule 17.06.2019    source источник
comment
Заголовок HTTP_REFERER также может быть удален любым пользователем браузера из соображений конфиденциальности. Это не всегда будет работать   -  person weegee    schedule 17.06.2019
comment
Это не дубликат, пожалуйста, прочитайте мой вопрос до конца.   -  person Carlos    schedule 17.06.2019
comment
Не уверен, насколько ясен ваш вопрос здесь. Что вы подразумеваете под «последним URL»? Я думаю, вы имеете в виду, что, учитывая URL-адрес, следуйте перенаправлениям (если применимо), пока их больше не будет, и это URL-адрес, который вы пытаетесь обнаружить.   -  person Progrock    schedule 17.06.2019
comment
Точно. Но ни один другой вопрос не учитывает следование перенаправлениям JS (если бы это было так). Я пытаюсь сказать, что мне нужно добавить необходимый код, чтобы следовать перенаправлениям, сделанным из JS.   -  person Carlos    schedule 17.06.2019


Ответы (1)


Если вы также хотите проверить перенаправления на основе браузера, вам не следует использовать PHP. Это будет очень сложно, если вам нужно анализировать и оценивать не только код JS, который непосредственно встроен в разметку, но и код на основе модулей, который загружается только после запуска некоторого JS.

Почему бы не использовать для этого что-то вроде Selenium или безголового браузера?

person Nico Haase    schedule 17.06.2019
comment
Не могли бы вы привести пример использования технологий, которые вы мне упомянули? Потому что я никогда не читал про headless браузер и не представляю, как его интегрировать с PHP. (Потому что мне нужно назначить конечный URL функции PHP, которая отвечает за выполнение других задач). - person Carlos; 17.06.2019
comment
Что ж, это может быть невозможно по причинам, которые я указал в ответе. Разбор, оценка или даже запуск кода JS, который не предназначен для запуска без какого-либо взаимодействия, не так прост. - person Nico Haase; 17.06.2019