Автор: Роберт Мони

В этом году мы соревновались с 6 различными решениями на 5-й Олимпиаде по вождению ИИ (AIDO), которая проходила в рамках 34-й конференции по системам обработки нейронной информации (NeurIPS). Всего было 94 участника с 1326 представленными решениями, поэтому мы с гордостью сообщаем, что наша команда заняла первое место в 2 из 3 задач.

Соревнование

Олимпиада по вождению с искусственным интеллектом — это соревнование по автономному вождению, целью которого является оценка современного состояния машинного обучения и искусственного интеллекта для воплощения интеллекта. В этом году были развернуты две лиги: Лига городского вождения, использующая платформу Duckietown, и Лига расширенного восприятия, использующая набор данных/задачи nuScenes и организованная Motional .

Мы соревновались в Лиге городского вождения, которая включает в себя три задачи, которые мы стремились решить:

  1. Слежение за полосой движения: Duckiebot должен следовать по правой полосе без каких-либо других объектов на дороге.
  2. Слежение за полосой движения с пешеходами: в этом случае на дороге есть пешеходы, представленные резиновыми утками, и Duckiebot должен избегать их, сохраняя правильную полосу движения в соответствии с правилами.
  3. Слежение за полосой движения с другими транспортными средствами: представленный алгоритм отправляется в несколько Duckiebots, которые одновременно движутся по трассе. Цель состоит в том, чтобы следовать полосе движения, избегая при этом аварий.

Наши лучшие рейтинги

Наши материалы заняли первое место в 2 из 3 испытаний. Несмотря на то, что окончательные результаты были основаны только на результатах, полученных в реальных условиях на соревнованиях, мы удовлетворены нашими результатами в смоделированных условиях.

Общий рейтинг во всех 3 испытаниях с подробностями.

Вот все наши рейтинги с более подробной информацией.

Вы можете заметить, что в реальной среде наши агенты работают плохо (т.е. пройденное расстояние очень мало). Мы думаем, что это связано с аппаратным апгрейдом ботов на соревнованиях: новая серия дакиботов (DT19) оснащена моторами со встроенными кодировщиками колес, а мы обучали нашего агента на предыдущая аппаратная версия (DT18), оснащенная простыми двигателями постоянного тока. К сожалению, мы не знали об этом аппаратном обновлении до последнего дня соревнований, и похоже, что среди участников больше никого не было.

Взгляните на наши решения

Андраш Калапос

В моем решении на 5-й Олимпиаде по вождению ИИ используется политика контроллера на основе нейронной сети, которая была обучена с помощью обучения с подкреплением. Его «мозг» — это сверточная нейронная сеть, которая почти напрямую вычисляет управляющие сигналы на основе изображений от робота. К наблюдениям применяется только очень простая предварительная обработка, такая как уменьшение масштаба, обрезка и суммирование. Затем, основываясь на этом входе, сеть вычисляет одно скалярное значение в качестве своего выхода, которое интерпретируется как управляющий сигнал.

Важной особенностью моего решения является то, что я обучал агента только в симуляции, а также тестировал его в реальном мире. Я обучил его, используя алгоритм обучения с подкреплением градиентного типа политик, а именно оптимизацию проксимальной политики, из-за его стабильности, сложности выборки и способности использовать преимущества нескольких параллельных рабочих процессов. Чтобы добиться надежной работы в физической среде, я использовал рандомизацию доменов. Это предполагает обучение политики набору различных вариантов моделирования, которые генерируются случайным образом возмущающими ее параметрами, такими как условия освещения, текстуры объектов, параметры камеры и так далее. Встроенных функций рандомизации официальной симуляции Duckietow оказалось достаточно для надежного движения по полосе на реальных дорогах Duckietown, несмотря на отсутствие в этой симуляции реалистичной графики и физической точности.

Я разработал свое решение в рамках своей магистерской диссертации с помощью двух научных руководителей, Роберта Мони и Чабы Гора. Я очень благодарна им за помощь и наставления! Если вас интересуют подробности нашей работы, мы опубликовали о ней статью под названием Обучение с подкреплением, приближенное к реальному, применительно к сквозному управлению транспортным средством.

Андраш Береш

Я разделил обучение на два этапа: репрезентативное обучение под наблюдением и часть обучения с подкреплением. На первом этапе я обучил экстрактор признаков на автономном наборе данных кодировать каждый кадр в физическое представление (угол пути, расстояние и кривизну). Затем я заморозил вес экстрактора признаков и использовал его для сжатия наблюдений для обучения с подкреплением в симуляторе. Я собрал несколько (3) входных изображений и закодировал их все в физическое представление, что позволило агенту иметь представление о динамике (скорость изменения физических представлений может быть использована для определения скорости и угловой скорости). Затем я применил алгоритм обучения с подкреплением Proximal Policy Optimization для обучения управляющей сети, которая выдает управляющий сигнал на основе закодированных входных изображений. Я использовал пространство непрерывного действия и библиотеку обучения с подкреплением StableBaselines3.

Мартон Тим

Мое решение включало инструмент сегментации правой полосы для предварительной обработки необработанных наблюдений в значимые значения. Моделью сегментации была полностью сверточная DenseNet, обученная в основном на данных симулятора и домене, адаптированном с помощью метода энтропии MiniMax с полуконтролем, и для получения потрясающих результатов (более 98,5 IoU) требовалось всего 80 помеченных реальных изображений. Используя сегментированные изображения в качестве абстракции окружающей среды, выбранный мной метод глубокого RL (PPO) смог научиться быстро двигаться по прямым участкам и выполнять повороты на высокой скорости. Более подробная информация о применяемом методе sim2real представлена ​​в моей статье, опубликованной на ISMCR2020, под названием Адаптация моделирования к реальному домену для сегментации дорожек.

Питер Алмаси

В своем представлении я использовал комбинацию глубокого обучения с подкреплением и методов имитации реальной жизни. Я использовал глубокие Q-сети для обучения агента следованию по полосе в симуляторе Duckietown на основе ввода с камеры. Я применил рандомизацию предметной области для обучения агента, который может управлять роботом как в смоделированной, так и в реальной среде. Кроме того, я предварительно обрабатываю изображения, чтобы сделать обучение более стабильным и эффективным, и выполняю постобработку действий, чтобы сделать движение робота более плавным. Более подробная информация представлена ​​в моей статье, опубликованной на IJCNN2020, под названием Надежный автономный управляющий агент на основе обучения с подкреплением для моделирования и реального мира.

Золтан Лоринц

Я применил имитационное обучение для решения задачи следования по полосе в Duckietown в соревновании AI-DO 5.
Агент, следующий по полосе, обучался с использованием алгоритма DAgger (агрегация данных), имитируемый эксперт представлял собой тонко настроенный ПИД-регулятор.< br /> Я использовал рандомизацию домена во время обучения, чтобы преодолеть разрыв между смоделированной и реальной средой. Дополнительные подробности доступны в моем среднем блогпосте.

Роберт Мони

Я разделяю задачу самостоятельного вождения на научиться видеть и научиться действовать. Учась видеть деталь, я фокусируюсь на переносе симуляции в реальность. Я обучил глубокую нейронную сеть с помощью метода самоконтролируемой адаптации домена, чтобы изучить преобразование изображения в изображение между доменами (симуляцией и реальным), а также изучить представление инвариантного состояния домена. Таким образом, первая часть работает как кодировщик с ролью кодирования наблюдений из любой области в состояние. Во второй части, учась действовать, я обучаю глубокую нейронную сеть с помощью метода глубокого обучения с подкреплением под названием «Оптимизация проксимальной политики» для изучения оптимальной политики управления на основе состояний, создаваемых кодировщиком. Более подробная информация о моем решении будет обновлена ​​в этом посте после публикации моей статьи на эту тему.

Подтверждение

Наш проект был поддержан Continental Automotive Hungary Kft. через проект сотрудничества с Будапештским университетом технологий и экономики под названием Professional Intelligence for Automotive project.