Больше данных… Больше шума

Несколько недель назад я думал о классических несбалансированных наборах данных, таких как обнаружение мошенничества, прогноз CTR (рейтинг кликов) или медицинская диагностика, и о том, как эти проблемы могут усугубиться с большими данными или в ситуациях в реальном времени. Даже самые сложные алгоритмы могут пострадать в этих контекстах из-за того, что «больше данных приносит больше шума» или вызывает большее перекрытие между предсказанными классами. Вдобавок этот экспоненциальный рост данных увеличивает сложность проблемы с вычислительной точки зрения. Чтобы противостоять этой проблеме, я начал развивать свое состояние техники, когда обнаружил этот умный подход под названием «Самостоятельный ансамбль для классификации сильно несбалансированных массивных данных», опубликованный в апреле 2020 года во время 36-й Международной конференции по инженерии данных IEEE. [1]. В этой опубликованной статье описан интересный способ борьбы с недостаточной выборкой путем сосредоточения внимания на наиболее ценных данных.

Есть популярная поговорка «разделяй и властвуй».

Есть популярная поговорка «разделяй и властвуй», но ее применение в этой задаче может вызвать два вопроса: как разделять и как побеждать. Чтобы ответить на первый вопрос, авторы предлагают идею «твердости» как трудности правильной классификации образца для классификатора, который может быть представлен любой функцией ошибки, такой как абсолютная ошибка, ошибка в квадрате и так далее. Используя эту идею, алгоритм берет большинство населения для упорядочивания и деления в «k» бункерах (где k может быть оптимизировано как гиперпараметр) с функцией «привязки» в качестве критерия. Конечно, на этапе инициализации используется классификатор. Этот процесс называется «Гармонизация твердости», и его цель состоит в том, чтобы назначить вклад значения твердости для каждого образца в его бункер, таким образом, он может быть определен для трех типов образцов: тривиальный с самым низким значением твердости (на самом деле, эти образцы хорошо подходят для каждого образца). классифицировано), шум с наивысшими значениями и границами (наиболее информативные выборки из-за их близости к границе решения).

Что касается завоевания, основная идея состоит в том, чтобы выбрать наиболее полезные выборки на каждой итерации путем уменьшения вероятности выборки для бинов с большими совокупностями, таким образом, можно выполнить пропорциональную недостаточную выборку. Кроме того, вероятность выборки рассчитывается как обратная величина среднего вклада привязки каждого бункера, и для постепенного снижения она включает коэффициент «альфа» (функция загара), который при первых взаимодействиях будет брать больше пограничных выборок. Несмотря на это, при высоких значениях альфа всегда берутся тривиальные выборки, чтобы не допустить переобучения. Наконец, алгоритм генерирует ансамбль с таким количеством классификаторов, сколько мы заказываем, и возвращает средний результат для всех из них. На рисунке ниже представлен алгоритм более подробно [1].

В заключение я хотел бы отметить три идеи, которые составляют основу этого умного подхода:

  • Вклад твердости. Это главный критерий для упорядочивания и определения того, какой вид выборки может быть исключен на каждой итерации.
  • Альфа-фактор. Он управляет уменьшением вероятности выборки, позволяя проводить обучение с ценными выборками на каждой итерации.
  • Классификатор ансамбля. Хотя каждый классификатор использует разные части основного класса с разной информацией, средний результат работает лучше, чем один классификатор.

Наконец, я поделюсь репозиторием GitHub этого проекта, где вы можете найти реализацию и несколько примеров, нажмите здесь: Self-paced Ensemble

ССЫЛКИ

[1] З. Лю и др., «Самостоятельный ансамбль для классификации сильно несбалансированных массивных данных», 2020 г., 36-я Международная конференция IEEE по инженерии данных (ICDE), Даллас, Техас, США, 2020 г., стр. 841–852, doi : 10.1109 / ICDE48307.2020.00078.