Предварительное обучение модели на случайных интернет-изображениях вместо ImageNet
Если вы читали недавние публикации о предварительном обучении с самоконтролем, вы могли заметить, что все новые методы и приемы в основном оценивались на ImageNet. Набор данных ImageNet очень разнообразен, велик и содержит огромное количество классов. Он был создан специально для оценки производительности моделей обработки изображений, поэтому он, несомненно, хорошо подходит для этой задачи. Однако относительно мало внимания уделялось тому, как эти самоконтролируемые методы работают с другими наборами данных изображений. Наборы данных, которые не курируются и содержат большое количество случайных изображений. В своей статье «Предварительное обучение зрительных функций в дикой природе с самоконтролем» Goyal et al. поставили перед собой задачу выяснить, соответствуют ли предполагаемые результаты самоконтролируемых методов предварительного обучения действительности при обучении на наборе случайных, неотобранных изображений.

Предпосылки
Модель SEER, представленная в статье, сочетает в себе несколько последних достижений в области компьютерного зрения.
Во-первых, он использует новый масштабируемый архитектурный вызов RegNet. RegNet определяется квантованной линейной функцией для формирования сети из нескольких блоков с оптимальной шириной и глубиной. У RegNet есть два варианта: RegNetX, который использует остаточный блок из классического ResNet, и RegNetY, который использует преимущества блоков сжатия и возбуждения. Я написал целую статью об архитектуре RegNet, можете прочитать ее здесь.

Другим важным компонентом документа SEER является метод предварительной подготовки с самоконтролем, который называется SwAV. Этот метод используется для модели SEER и для сравнения. SwaV использует дополнение данных для создания нескольких разных версий одного и того же изображения. Затем они проходят через сверточную нейронную сеть для создания скрытого представления.Затем этот вектор изучается для назначения одному из K векторов-прототипов путем формулирования переставленного проблема предсказания. Если вы хотите освежить свои знания о SwAV, смело читайте мой рассказ на бумаге здесь.

Наконец, в документе SEER сравнивается его производительность с SimCLR, еще одним методом самоконтролируемого предварительного обучения. SimCLR, как и SwAV, использует дополнение данных для формирования пар дополненных версий одного и того же изображения. Затем они передаются в сверточную нейронную сеть для формирования вектора признаков. Затем этот вектор поступает в MLP для формирования конечного вывода сети. SimCLR использует новую функцию потерь под названием NT-Xent, которая ищет разные представления одного и того же объекта. Опять же, если вы хотите глубже погрузиться в SimCLR, у меня есть статья на бумаге, которую вы можете прочитать здесь.

Разработка модели, которая может извлечь выгоду из больших некурируемых наборов данных изображений.
Теперь перейдем к основному вкладу статьи. Как упоминалось ранее, основной целью этого документа было выяснить, как большой неконтролируемый набор данных изображений повлияет на производительность метода самоконтроля. Кроме того, авторы стремились разработать метод, превосходящий другие современные современные методы.
Для этого они использовали метод SwAV для определения процесса предварительной подготовки. В частности, они создали пары изображений с разрешением 2 x 224 и 4 x 96 с множеством различных дополнений данных для передачи в модель. Они также определили, что SwAV имеет 16 тысяч векторов-прототипов, что является важным гиперпараметром для этой техники.
Для архитектуры модели они выбрали ранее упомянутую RegNet, в частности, они экспериментируют с рядом сетей, а именно RegNetY-{8, 16, 32, 64, 128, 256}GF. , в котором используются упомянутые ранее блоки сжатия и возбуждения. Этот диапазон спецификаций возможен только благодаря большой гибкости архитектуры RegNet. Поверх этого RegNet они определили трехслойную проекционную головку MLP для формирования выходного вектора 256-D.

Вся модель SEER (SwAV с RegNet) была обучена на нескольких различных наборах данных, к которым мы перейдем в разделе «Результаты», наиболее заметным из которых является миллиард неотобранных изображений из Instagram. сильный>. Для обучения модели авторы использовали потрясающие 512 графических процессоров NVIDIA V100 32 ГБ и обучение на 122 000 итераций. Теперь давайте посмотрим, как модель SEER соотносится с другими методами и для разных наборов данных.
Полученные результаты
Здесь есть что распаковать. Начнем с классической оценки модели обучения с самоконтролем.

В рамках первого эксперимента SEER был предварительно обучен на одном миллиарде случайных изображений из Instagram, а затем настроен на ImageNet. Невероятно, но SEER может превзойти все другие методы по точности Top-1 ImageNet. Примечательно, что он может превзойти исходную статью о SwAV, даже несмотря на то, что он использует свою технику предварительного обучения с самоконтролем, только с другой сетевой архитектурой. Кроме того, эта модель превосходит модель SimCLRv2, которая имеет увеличенный размер параметра по сравнению с предыдущей. Также существует корреляция между точностью топ-1 и количеством параметров: чем больше модель, тем лучше она работает. Также интересно, что SEER превосходит все остальные методы, хотя это единственный метод, предварительно обученный на случайных изображениях. SimCLRv2 даже был предварительно обучен на ImageNet, который позже использовался для оценки.

Авторы также определили так называемый сценарий обучения с малым выстрелом, т. е. после предварительного обучения модель была настроена только с использованием 1% или 10% набора данных ImageNet (по сравнению со 100 % за первую оценку). В то время как SimCLRv2 кажется наиболее эффективной моделью, предварительно обученной в ImageNet, SEER может почти соответствовать ее производительности, несмотря на то, что раньше не видел никаких изображений из ImageNet (предварительное обучение на случайных изображениях). Это еще раз показывает, что SEER способен достаточно узнать о визуальном мире, который он видел во время предварительного обучения, чтобы достаточно хорошо передать свои знания задаче классификации ImageNet.

Еще один очень важный вывод из статьи заключается в том, что по мере увеличения количества параметров в RegNet резко возрастает преимущество предварительно обученной модели по сравнению с RegNet, обученной с нуля. Другими словами, если вы обучаете очень большую модель, она с большей вероятностью выиграет от предварительного обучения (с самоконтролем) по сравнению с моделью меньшего размера.

И последнее, но не менее важное: давайте посмотрим на влияние SEER на последующие задачи. Авторы также обучили Mask R-CNN с предварительно обученной магистралью RegNet на наборе данных MS COCO для обнаружения объектов и семантической сегментации. Они показывают, что по сравнению с обучением модели с нуля с помощью меток модель, использующая магистраль SEER RegNet, которая была предварительно обучена на случайных изображениях из Интернета, приводит к повышению производительности для обеих последующих задач.
Завершение
В этой статье вы узнали о SEER и о том, как самоконтролируемое предварительное обучение может быть эффективным, даже если оно не используется в сочетании с тщательно подобранным набором данных. Последствия этого весьма значительны: Мы могли бы стать на один шаг ближе к полностью неконтролируемому обучению моделей изображений. Хотя я надеюсь, что эта история дала вам хорошее первое представление о статье, еще многое предстоит узнать, особенно с точки зрения результатов и исследований абляции. Поэтому я бы посоветовал вам прочитать статью самостоятельно, даже если вы новичок в этой области. С чего-то надо начинать ;)
Если вас интересуют более подробные сведения о методе, представленном в статье, не стесняйтесь, напишите мне сообщение в Твиттере, моя учетная запись связана с моим профилем на Medium.
Надеюсь, вам понравилось это бумажное объяснение. Если у вас есть какие-либо комментарии к статье или вы видите какие-либо ошибки, не стесняйтесь оставлять комментарии.
И последнее, но не менее важное: если вы хотите глубже погрузиться в область передового компьютерного зрения, рассмотрите возможность стать моим последователем. Я стараюсь публиковать статью раз в неделю и информировать вас и всех, кто интересуется, о том, что нового в исследованиях компьютерного зрения!
Использованная литература:
[1] Гоял, Прия и др. Предварительная тренировка зрительных функций в дикой природе под самоконтролем. препринт arXiv arXiv:2103.01988 (2021 г.). https://arxiv.org/pdf/2103.01988.pdf
[2] Радосавович, Илия и др. Проектирование пространств сетевого дизайна. Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов. 2020. https://arxiv.org/pdf/2003.13678.pdf
[3] Карон, Матильда и др. Неконтролируемое изучение визуальных особенностей путем сопоставления кластерных заданий. препринт arXiv arXiv: 2006.09882 (2020 г.). https://arxiv.org/pdf/2006.09882.pdf
[4] Чен, Тинг и др. Простая структура для контрастного обучения визуальным представлениям. Международная конференция по машинному обучению. ПМЛР, 2020. https://arxiv.org/pdf/2002.05709.pdf
[5] Сообщение в блоге Facebook AI Research: SEER: начало более мощной, гибкой и доступной эры компьютерного зрения. https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/