Что на самом деле означают «случайные скачки» в PageRank Google?

Я где-то читал, что добавленная S-матрица из 1/n элементов вместе с коэффициентом выдумки 0,15, который использует Google, просто неточна и просто решает другую проблему.

С другой стороны, я где-то читал, что это действительно имеет значение. И используется для случайных прыжков. Сначала мы спрашиваем, хочет ли серфер продолжать кликать или нет. Итак, согласно тому, что я прочитал, значение: -85% продолжают нажимать -15% нет.

Мой вопрос... это может быть хорошо для первого клика. Но как это работает в других итерациях? Как кто-то может попасть на случайную страницу? Разве это не все предположение ранга страницы, что каждый связан с другим?

Если я могу просто попасть на страницу, не переходя откуда-то еще, тогда ранжирование будет не точным.

Но самое главное, я не понимаю, что означает добавленная матрица 1/n? Если я нахожусь на странице, я могу нажимать только на клики, которые я вижу. Что значит сказать, что я могу пойти куда-нибудь еще?

Если они имеют в виду, что я просто снова ищу в Google, то почему бы не назвать это второй цепочкой? Зачем включать его в первую?

Кроме того, это 15%, когда я случайно прыгаю, или 15%, что я прекращаю серфить? (Или это одно и то же?)

И на мой первый вопрос - является ли это вымышленным неточным фактором, который создан для решения других проблем, или он действительно означает что-то, как сказано выше, и это правильное измерение, чтобы включить его даже по его собственным достоинствам?


person bilanush    schedule 18.06.2018    source источник
comment
Я голосую за то, чтобы закрыть этот вопрос как не по теме, потому что это вопрос информатики, а не вопрос программирования. cs.stackexchange.com может быть лучшим сайтом для ответа на этот вопрос.   -  person snakecharmerb    schedule 19.06.2018


Ответы (1)


«Случайные прыжки» могут соответствовать многим вещам:

  • Ввод адреса в адресную строку
  • Переход по ссылке "Избранное"
  • Посещение домашней страницы (или любой из ссылок на ней!)
  • Переход по ссылке из агрегатора контента/социальных сетей

Люди делают это на самом деле, просматривая Интернет; переход на случайную страницу в вашем индексе — очень грубое приближение к такому поведению.

Если вы Google или какая-либо другая организация с большим количеством данных о просмотре/отслеживании, вы можете измерить вероятность того, что люди «заходят» на определенные веб-сайты, чтобы получить лучшую модель! Вероятности случайного перехода не обязательно быть абсолютно одинаковыми; они просто должны быть ненулевыми для каждого веб-сайта.

Случайные переходы — это самый простой способ обеспечить эргодичность матрицы/соответствующей цепочки. облегчает анализ и гарантирует сходимость.

person Curtis Fenner    schedule 19.06.2018
comment
Спасибо! Мой вопрос таков. Когда вы принимаете во внимание возможность того, что кто-то полностью перестанет заниматься серфингом? Кроме того, почему это называется фактором выдумки? Это верно. Я читал, что в соответствии с этим некоторая информация теряется из-за этого фактора выдумки. Согласно вашей интерпретации, действительно правильно включить этот фактор. - person bilanush; 19.06.2018
comment
Вы не считаете, что люди останавливаются, потому что это не вписывается в марковскую модель. Прекращение серфинга - еще одна причина случайного перехода, так как они собираются снова начать серфинг позже (на случайной странице). - person Curtis Fenner; 19.06.2018
comment
Чем выше фактор выдумки, тем меньше значение имеет форма сети. При 99% случайных прыжков фактические ссылки почти не имеют значения; при 0,0001% случайные прыжки почти не имеют значения (но вы можете прийти к чему-то странному). - person Curtis Fenner; 19.06.2018
comment
В ПОРЯДКЕ. Но это не фальшивый фактор. Это реально. Я не понимаю, почему люди говорят, что это неточно и информация теряется. Если есть процентный фактор, в котором люди прыгают случайным образом, то это действительно точное измерение. Google не «обманул» здесь. Это правильное уравнение. - person bilanush; 19.06.2018
comment
Небольшое замечание: Случайные переходы — это самый простой способ... Эргодичность — один из важных аспектов, иначе ваши веб-сайты разложатся на отдельные подграфы. Другой момент заключается в том, что единый коэффициент случайного перехода сохраняет разреженность безумно большой матрицы, и вы по-прежнему можете эффективно вычислить наибольший собственный вектор (рейтинг страницы) с помощью степенного метода. Обычно для больших коэффициентов выдумки это сходится быстрее. Таким образом, помимо интерпретации, есть причина вычислительная / техническая. - person jhp; 21.06.2018