Ссылка на документ: Предварительная подготовка к зрительно-моторному контролю: пересмотр базового уровня обучения с нуля

Код: О предварительной подготовке к зрительно-моторному контролю: пересмотр базового уровня обучения с нуля

Ключевые идеи

  • В документе рассматривается изучение визуальных представлений с нуля (LfS) в качестве надежной основы для задач зрительно-моторного контроля по сравнению с использованием предварительно обученных представлений, таких как PVR, MVP и R3M.
  • Авторы оценивают LfS и предварительно обученные представления в 4 областях (Adroit, DMControl, PixMC, реальный робот), 3 алгоритмах (клонирование поведения, RL в соответствии с политикой, RL вне политики) и такие показатели, как эффективность выборки, асимптотическая производительность, надежность. .
  • Тщательно разработанный подход LfS с неглубоким кодировщиком ConvNet и увеличением данных работает на удивление хорошо, оставаясь конкурентоспособным или даже превосходя предварительно обученные представления во многих случаях.
  • Ни одно предварительно обученное представление не превосходит LfS по всем задачам и показателям. Замороженные предварительно обученные представления работают лучше в режиме с очень низким объемом данных, но общая производительность ограничивается обучением на основе политик.
  • Точная настройка предварительно обученных представлений на данных задачи приводит к значительному выигрышу, превосходя замороженные аналоги и LfS. Но это требует увеличения данных во время тонкой настройки, что указывает на разрыв домена между реальным и симуляцией.
  • LfS с сильным дополнением значительно превосходит предварительно обученные представления в тестах надежности с визуальными вариациями, такими как рандомизированные цвета или видеофоны.
  • Основным преимуществом замороженных предварительно обученных представлений в настоящее время является более низкая стоимость обучения благодаря повторному использованию функций. Но у них более медленный вывод, чем у меньших моделей LfS.
  • В документе представлены рекомендации для будущей работы: разработка контрольных показателей, требующих визуального обобщения, устранение разрыва между реальной и симуляционной областью и улучшение рецептов обучения / увеличения данных для предварительно обученных представлений.

Метод

Обучение с нуля (LfS)

Для базовых показателей обучения с нуля (LfS) авторы используют неглубокие кодировщики ConvNet с 4–6 слоями свертки и активациями ReLU. Точная архитектура берется из предыдущей работы для каждого класса алгоритма (BC, RL в соответствии с политикой, RL вне политики). Важным компонентом является использование увеличения случайного сдвига на входных изображениях с коэффициентом заполнения, соответствующим предыдущей работе. Для клонирования поведения они также применяют аугментацию к демонстрационным изображениям, что является недостаточно изученной идеей.

Предварительно обученные представления

Они оценивают 3 недавно предложенных предварительно обученных визуальных представления: PVR (MoCo-v2 в ImageNet), MVP (MAE на видео с людьми) и R3M (предварительное обучение с множественными потерями на Ego4D). Общедоступные предварительно обученные модели используются без каких-либо изменений архитектуры или веса. Предварительно обученные веса замораживаются во время изучения политики в соответствии с первоначальными предложениями. Некоторые эксперименты также настраивают предварительно обученные модели на небольших наборах данных задач.

Алгоритмы

Для алгоритмов клонирование поведения обучает сверточные политики на демонстрационных данных. RL на основе политики использует PPO с кодировщиками изображений и проприоцептивными состояниями. RL вне политики использует алгоритм DrQ-v2, который сочетает в себе Q-обучение, случайные кадры и увеличение данных.

Таким образом, базовые уровни LfS тщательно разработаны с использованием информации из предыдущей работы и сравниваются с последними предварительно обученными моделями, которые использовались в первоначально предложенном порядке. Методы оцениваются по нескольким алгоритмам и показателям, чтобы обеспечить тщательное сравнение.

Эксперименты

Базовый уровень обучения с нуля (LfS) работает конкурентоспособно или даже превосходит замороженные предварительно обученные представления по нескольким алгоритмам, областям и показателям, включая эффективность выборки, асимптотическую производительность и надежность. Не существует единого предварительно обученного представления, которое постоянно превосходит LfS во всех задачах, что указывает на то, что их эффективность сильно зависит от конкретной задачи и алгоритма.

Важный вывод заключается в том, что точная настройка предварительно обученных представлений на небольших наборах данных задач приводит к значительным улучшениям как по сравнению с замороженными аналогами, так и с базовыми уровнями LfS, но только тогда, когда во время точной настройки используется дополнение данных. Это говорит о том, что между данными перед обучением и эталонными тестами существует разрыв в предметной области «реальный-симуляционный».

LfS с сильным усилением цветового дрожания существенно превосходит предварительно обученные модели в тестах надежности с визуальными вариациями, а добавление сильного увеличения постоянно повышает надежность как LfS, так и предварительно обученных моделей.

Предварительно обученные представления работают немного лучше, чем LfS в режиме с очень низким объемом данных, но, похоже, в целом они ограничены из-за обучения политике, что позволяет предположить, что текущие тесты могут не требовать большого визуального обобщения, где предварительное обучение могло бы помочь больше.

Что касается вычислительных затрат, основным преимуществом замороженных предварительно обученных представлений является более низкая стоимость обучения благодаря повторному использованию функций, но они имеют более медленный вывод по сравнению с меньшими архитектурами моделей LfS.

На отдельных видах ближней и дальней камеры в домене Adroit результаты показывают, что предварительно обученные представления больше выигрывают от дальних наблюдений, в то время как LfS больше выигрывает от близких взглядов.

Таким образом, несмотря на то, что замороженные предварительно обученные модели имеют свои преимущества, результаты показывают, что LfS остается высококонкурентной и хорошо разработанной для текущих тестов зрительно-моторного контроля. На основе этих выводов в документе представлены проницательные рекомендации для будущей работы.