Должен ли размер каждого класса в обучающих данных классификатора изображений быть одинаковым?

В настоящее время я обучаю классификатор изображений с помощью Nvidia DIGITS. Я загружаю 1 000 000 изображений как часть набора данных ILSVRC12. Как вы, возможно, знаете, этот набор данных состоит из 1000 классов, по 1000 изображений в каждом классе. Проблема в том, что многие изображения загружаются с мертвых URL-адресов Flickr, таким образом заполняя приличную часть моего набора данных (около 5-10%) общим «недоступным» изображением, показанным ниже. Я планирую просмотреть и удалить каждую копию этого «общего» изображения, таким образом оставив в моем наборе данных только изображения, относящиеся к каждому классу.

Это действие сделает размер классов неравномерным. Каждый из них больше не будет содержать 1000 изображений. Каждый из них будет содержать от 900 до 1000 изображений. Должен ли размер всех классов быть одинаковым? Другими словами, могу ли я удалить эти общие изображения, не влияя на точность моего классификатора? Заранее благодарим за отзыв.
файл недоступен изображение


person Will Heitman    schedule 01.08.2017    source источник


Ответы (1)


Количество обучающих данных на класс не обязательно должно быть точно равным. Разница в 10% так или иначе не окажет существенного влияния на процесс обучения.
Если вы все еще беспокоитесь о дисбалансе меток, вы можете рассмотреть возможность использования "InfogainLoss", чтобы компенсировать отсутствующие примеры.

PS. Вы можете воспользоваться тем фактом, что все недействительные фотографии flickr на самом деле идентичны, и удалить их автоматически на основе их суммы md5.
См. этот ответ, например, о том, как отфильтровать эти изображения при загрузке фотографий imagenet.

person Shai    schedule 01.08.2017