Как бороться с несбалансированными классами в наборе данных машинного обучения

Я хочу классифицировать 5 разных объектов с помощью алгоритма глубокого обучения. Планирую использовать трансферное обучение. Для 2 классов у меня более 2000 наборов данных, а можно собрать еще больше. Однако для других 3 классов у меня всего 300 на класс.

Например, представьте, что у нас есть двоичный класс «Not-Fraud» и «Fraud». Подавляющее большинство транзакций будет относиться к классу «Отсутствие мошенничества», а очень незначительное меньшинство - к классу «мошенничества».

PS. эту проблему можно превратить в проблему двоичной классификации, если я могу использовать один из этого большого набора данных как один класс, а остальные как другой класс. Мне было интересно, не скажешь ли ты мне, как можно управлять этими несбалансированными данными тренировок?

Заранее спасибо.


person Community    schedule 09.09.2019    source источник


Ответы (2)


Вы можете попробовать использовать SMOTE (метод синтетической передискретизации меньшинства) для передискретизации экземпляров класса меньшинства.

здесь для SMOTE

person nag    schedule 09.09.2019

Выполните некоторое увеличение данных изображения только для класса меньшинства.

person Sayantan Das    schedule 09.09.2019