Проблемы, с которыми сталкиваются небольшие наборы данных в моделях глубокого обучения

Если вы такой же энтузиаст искусственного интеллекта, как и я, то вы должны быть знакомы с набором данных о психологических травмах, который вы получили для своих моделей глубокого обучения. Набор данных является наиболее важным фактором для любого проекта глубокого обучения и машинного обучения. Мы обсудим эти проблемы и их решения, связанные с небольшими наборами данных.

Что ж, если у вас небольшой набор данных, то есть несколько препятствий, над которыми вам следует поработать. Вот некоторые из них.

Недообучение, так как модель не сможет тренироваться
Небольшой набор данных приводит к плохой точности и результатам функции потерь
Набор данных дисбаланса
Оценка показателей

Это основные проблемы, с которыми сталкиваются специалисты по данным, особенно при обучении своих моделей глубокого обучения.

Первую и вторую проблемы можно решить одновременно с помощью аугментации. Аугментация — это процесс дублирования данных путем увеличения, уменьшения, сдвига, вращения, наклона и многого другого.

Это увеличивает ваш набор данных с различными вариациями, что приводит к решению проблемы недообучения, плохой точности и потерь результатов.

Набор данных о дисбалансе и оценка метрик также решаются одновременно. Но прежде чем мы углубимся, нам нужно понять эти термины.

Набор данных дисбаланса означает при создании модели классификации. У вас не одинаковое общее количество экземпляров каждого класса. Например, класс A имеет 60 экземпляров, а класс B имеет 90 экземпляров, что приводит к несбалансированному набору данных, что приводит к плохим результатам точности.

Оценка метрик означает измерение точности и потерь для оценки ваших моделей.

Однако при работе с несбалансированным набором данных показатели «Точность» и «Потери» не соответствуют стандартам. Решение для несбалансированного набора данных и метрик заключается в использовании метрик, отличных от функций Keras «Точность» и «Потери».

Следовательно, правильными показателями для использования являются «точность», «отзыв», «F1» и т. д. Они обеспечивают наилучшую оптимальную точность и потери.

Хорошие ресурсы: -

Разница между ИИ, машинным обучением и глубоким обучением -› https://youtu.be/4fGx08QKymQ

Проблемы, с которыми сталкиваются небольшие наборы данных в моделях глубокого обучения

Похожие вопросы