Я разрабатываю приложение для обмена сообщениями для Android. Существует ли хороший алгоритм фильтрации спама, который хорошо работает для SMS? Пожалуйста, дайте что-нибудь для начала.
Рахим.
Я разрабатываю приложение для обмена сообщениями для Android. Существует ли хороший алгоритм фильтрации спама, который хорошо работает для SMS? Пожалуйста, дайте что-нибудь для начала.
Рахим.
Я не думаю, что существует установленный алгоритм, с помощью которого вы можете точно узнать, считает ли пользователь SMS спамом (объявление в SMS может быть важным для некоторых пользователей и спамом для других). Google делает для выявления спама.
Вы можете позволить пользователю пометить SMS как спам или не спам, а затем, основываясь на том, какой контент был отмечен пользователем как спам, вы можете решить, считает ли пользователь это спамом или нет.
Изменить: все еще ближе всего к тому, что вы ищете, я нашел в этот pdf-файл о фильтрации SMS-спама на основе контента.
Это не алгоритм, а то, что вы должны иметь в виду.
Цитата из пдф:
Наиболее популярные методы, используемые в настоящее время для уменьшения спама, включают следующие.
Белый и черный списки. Отправители из черного списка (например, RBL) считаются спамерами, а их сообщения блокируются. Сообщения от отправителей из белого списка (например, адресной книги или самого провайдера — Hotmail) считаются законными и, следовательно, доставляются.
Совместная фильтрация. Когда пользователь отмечает сообщение как спам, это считается спамом для пользователей, похожих на него. В качестве альтернативы поставщик услуг считает массовые сообщения спамом.
Цифровые подписи. Сообщения без цифровой подписи считаются спамом. Цифровые подписи могут быть предоставлены отправителем или поставщиком услуг.
Фильтрация на основе содержания . Самый используемый метод. Каждое сообщение ищется на наличие признаков спама, таких как указательные слова (например, «бесплатно», «виагра» и т. д.), необычное расположение знаков препинания и заглавных букв (как, например, в «КУПИТЬ!!!!!!») и т. д.
Там много хорошей информации. Проверьте это.