В настоящее время я обучаю классификатор изображений с помощью Nvidia DIGITS. Я загружаю 1 000 000 изображений как часть набора данных ILSVRC12. Как вы, возможно, знаете, этот набор данных состоит из 1000 классов, по 1000 изображений в каждом классе. Проблема в том, что многие изображения загружаются с мертвых URL-адресов Flickr, таким образом заполняя приличную часть моего набора данных (около 5-10%) общим «недоступным» изображением, показанным ниже. Я планирую просмотреть и удалить каждую копию этого «общего» изображения, таким образом оставив в моем наборе данных только изображения, относящиеся к каждому классу.
Это действие сделает размер классов неравномерным. Каждый из них больше не будет содержать 1000 изображений. Каждый из них будет содержать от 900 до 1000 изображений. Должен ли размер всех классов быть одинаковым? Другими словами, могу ли я удалить эти общие изображения, не влияя на точность моего классификатора? Заранее благодарим за отзыв.