Как бороться с несбалансированными классами в наборе данных машинного обучения

Я хочу классифицировать 5 разных объектов с помощью алгоритма глубокого обучения. Планирую использовать трансферное обучение. Для 2 классов у меня более 2000 наборов данных, а можно собрать еще больше. Однако для других 3 классов у меня всего 300 на класс.

Например, представьте, что у нас есть двоичный класс «Not-Fraud» и «Fraud». Подавляющее большинство транзакций будет относиться к классу «Отсутствие мошенничества», а очень незначительное меньшинство - к классу «мошенничества».

PS. эту проблему можно превратить в проблему двоичной классификации, если я могу использовать один из этого большого набора данных как один класс, а остальные как другой класс. Мне было интересно, не скажешь ли ты мне, как можно управлять этими несбалансированными данными тренировок?

Заранее спасибо.

deep-learning yolo classification

Community 09.09.2019 источник

Ответы (2)

arrow_upward
0
arrow_downward

Вы можете попробовать использовать SMOTE (метод синтетической передискретизации меньшинства) для передискретизации экземпляров класса меньшинства.

здесь для SMOTE

nag 09.09.2019

arrow_upward
0
arrow_downward

Выполните некоторое увеличение данных изображения только для класса меньшинства.

Sayantan Das 09.09.2019

Как бороться с несбалансированными классами в наборе данных машинного обучения

Ответы (2)

Похожие вопросы