Как работает спам-фильтр Gmail?

Меня всегда удивляет высокое качество спам-фильтра Gmail. За последний год он отфильтровал 99,95% спама и по ошибке заблокировал только одно письмо. Для сравнения, любой другой почтовый сервис, который я использовал, дает как минимум одну ошибку на каждые 50 писем.

Как внутри Gmail достичь такого уровня качества? Основано ли оно на отзывах клиентов (т. Е. Если N клиентов блокируют почту как спам, она сортируется как спам для всех остальных клиентов)? Или есть какая-то хитрость? Может быть, базовый алгоритм фильтрации отфильтровывает наиболее очевидный спам, а некоторые сложные случаи анализируются реальными людьми?


person Arseni Mourzenko    schedule 22.07.2010    source источник
comment
Хахаха. Это забавно. Спросить нас, как работает запатентованный, коммерчески секретный алгоритм Googles. Почему бы не спросить их?   -  person S.Lott    schedule 22.07.2010


Ответы (5)


Короче говоря, это основано на отзывах сообщества. Вот цитата из официального объяснения:

Пользователи Gmail играют важную роль в предотвращении попадания спама в миллионы почтовых ящиков. Когда сообщество Gmail голосует своими щелчками, чтобы сообщить о конкретном электронном письме как о спаме, наша система быстро учится блокировать похожие сообщения. Чем больше спама отмечает сообщество, тем умнее становится наша система.

Вы можете прочитать об этом немного подробнее на их Страница объяснения спама.

person UserPioneer    schedule 22.07.2010

Это вопрос на миллион долларов, и если бы на него можно было ответить в stackOverflow, то любой спам-фильтр был бы столь же эффективным.

person Fosco    schedule 22.07.2010
comment
Это не так очевидно. Как я уже сказал, может быть, Google нанимает людей для фильтрации сложных случаев, или фильтр основан на отзывах пользователей. В этом случае, да, каждый, кто может нанять людей для этого или полагаться на столь большое сообщество, сможет создать эффективный спам-фильтр. - person Arseni Mourzenko; 22.07.2010
comment
Нет, это не так, потому что высокое качество их спам-фильтра обусловлено большим объемом данных, которые у них есть. См. Доклад Питера Норвига «Неоправданная эффективность данных». - person Wes; 09.02.2014

Я действительно не знаю, как именно Google выполняет фильтрацию спама (но я думаю, что это все-таки бизнес-секрет). Если вас интересует, как работает фильтрация спама, я бы порекомендовал изучить байесовскую фильтрацию спама (http://en.wikipedia.org/wiki/Bayesian_spam_filtering). Это довольно простой для понимания метод.

person WebMonster    schedule 22.07.2010

Google, скорее всего, использует систему классификаторов, такую ​​как логистическая регрессия или нейронные сети. Современное обнаружение спама часто использует такие алгоритмы машинного обучения.

Выходная классификация - «Спам» или «Не спам», а вводимые данные, я уверен, являются совершенно секретными в Google, но я уверен, что некоторые текстовые фразы в электронном письме, такие как «Купить сейчас», «Распродажа», «Виагра» или «мужское совершенствование» - все это факторы в их модели.

person JMoser    schedule 10.03.2016

Официального релиза по этому поводу нет, и большинство предложений являются просто наблюдениями / мнением экспертов.

Основываясь на моих наблюдениях за электронными письмами, которые мы доставляем, вот мои выводы:

1. Вовлеченность пользователей - ключ к успеху: если пользователи не взаимодействуют с вашими электронными письмами, они обязательно будут помечены как спам. Вот некоторые показатели: - Кому вы пишете и как часто вы им пишете - Какие письма вы открываете - На какие письма вы отвечаете - Ключевые слова в письмах, которые вы обычно читаете - Какие письма вы помечаете, архивируете или удаляете

2. Репутация домена отправителя: Какова история домена отправителя в прошлом? Если раньше вовлеченность пользователей была выше, то вероятность того, что новое письмо с того же домена попадет в папку «Входящие», высока.

Для этого Google использует сложные алгоритмы искусственного интеллекта и машинного обучения. Хотя вы можете добиться определенного успеха, изменив IP, домен или обратный путь, но все это будет очень кратковременным взломом.

person Dibya Sahoo    schedule 20.03.2018