Определение популярности видео по рейтингу и просмотрам

Я собираюсь приступить к новому проекту - видео сайт. Пользователи смогут регистрироваться и голосовать за видео, нажимая «нравится» или «не нравится» или что-то в этом роде. В любом случае это будет система голосования с двумя вариантами, а не с пятью звездами.

Каждые X дней я буду составлять «диаграмму» самых популярных видео. Итак, мой вопрос: как мне определить популярность данного видео?

Если бы я пошел по пути подсчета видео с наибольшим количеством просмотров, это могло бы привести к тому, что исключительно плохие видео попали бы в чарты (только потому, что они такие плохие).

Если я выберу систему подсчета очков, основанную на количестве голосов «нравится» и «не нравится» (например, 100 голосов «нравится» и 50 голосов «не нравится» равняются 2 баллам), видео с небольшим количеством просмотров могут появиться в верхней части списка. графики.

Итак, что мне нужно сделать, это комбинация двух. За исключением, конечно, спамных просмотров и голосов.

Что ваши ребята думают по этому поводу?

Изменить: следующие теги были удалены: [mysql] [postgresql], чтобы освободить место для других, более репрезентативных тегов; технология SQL, используемая в предполагаемой реализации, по-видимому, мало влияет на соображения, касающиеся модели рейтинга как таковой.


person Community    schedule 17.03.2010    source источник


Ответы (2)


Вы, кажется, упускаете из виду тот факт, что нравится и не нравится в фильмах совсем не объективно даже в контексте относительно однородной группы «избирателей». Подумайте, как термин "Chix Flix" или история успеха под названием "NetFlix" иллюстрируют эту субъективность...

Тем не менее, если вы настаиваете на реализации предложенной вами модели, есть несколько скрытых переменных и динамики системы, которые необходимо признать и, возможно, учесть в формуле рейтинга.

  • существование третьего, неявного, значения голосования: «Нет голоса»
    , т. е. когда кто-то просматривает страницу фильма и все же не голосует в любом случае.
    Проблема Работа с этой дополнительной ценностью заключается в ее двусмысленности: разве люди не голосуют, потому что они не видели фильм или потому, что он им не нравится и не нравится по-настоящему? Скорее всего, и то, и другое, поэтому мы можем/должны использовать в формуле подсчет «Просмотров страниц без голосования», чтобы повысить (несколько) рейтинг фильмов, которые не вызывают сильного (положительного или отрицательного) настроения (чтобы "поляризующие" фильмы будут казаться более печально известными или популярными)
  • эффект поощрения
    После определенного порога и, в частности, если рейтинг и/или количество голосов видны перед просмотром страницы, рейтинг и количество голосов могут повлиять на то, как люди решат голосовать (в любом случае) или даже на решение воздержаться от голосования. Подразумевается, что общее количество голосов и/или просмотров не связано линейно с эффективным рейтингом.
  • "качество" и "известность"
    Соотношение голосов в целом (например, "лайки" / "всего" или "лайки"/ «не нравится» и т. д.) указывают на «качество» фильма (обратите внимание на кавычки вокруг качества ...), при этом количество голосов (и просмотров) указывает на известность («узнаваемость имени» и т. д.) фильма.
  • Статистическая репрезентативность
    К очень маленькому количеству голосов и/или просмотров следует относиться с осторожностью, поскольку они вносят большую изменчивость в рейтинг. Иными словами, небольшие выборки не дают статистически репрезентативных оценок.
  • тенденции (переменная времени)
    Рискуя усложнить модель, рассмотрите возможность ведения [некоторых] записей о том, когда произошло голосование/просмотр, чтобы можно было идентифицировать «горячие» (и «охлаждающие») фильмы. в коллекции. Эта информация может информировать логику рейтинга, но также может быть использована для направления пользователей к популярным в данный момент товарам. Кстати, следовательно, подпитывая упомянутый эффект подношения на выборах :-(но также увеличивая размер выборки для голосования :-).

Все эти соображения предполагают осторожность при внедрении этой рейтинговой системы. Это также намекает на вероятную необходимость включения статистики о полном наборе фильмов в формулу рейтинга для отдельного фильма. Другими словами, оценивайте данный фильм не только на основе его собственного количества голосов/просмотров, но также, скажем, на основе среднего количества голосов, полученных за ход, максимального количества просмотров страницы фильма и т. д. Фактически, итеративный процесс, при этом фильмы сначала [примерно] оцениваются, а затем рейтинг пересчитывается с использованием статистики групп фильмов с аналогичным рейтингом, что может обеспечить лучшую систему (при условии, что формулы «справедливы» и каким-то образом сходятся)

person mjv    schedule 17.03.2010
comment
Спасибо за перечисление этих соображений дизайна, очень полезно. - person Pking; 21.07.2013

Стандартный трюк состоит в том, чтобы начать с нейтральной базовой линии: скажем, 10 лайков и 10 антипатий, что дает 1 балл. Первые несколько голосов не слишком сильно меняют соотношение, но по мере накопления голосов базовая линия переполняется. Точный выбор базовых значений повлияет на рейтинг нового фильма (эти два значения не обязательно должны быть равны) и на то, сколько голосов необходимо, чтобы существенно изменить рейтинг.

person Aniko    schedule 17.03.2010