Эволюция интеллекта роботов: часть 1

Когда мы думаем о сценарии Скайнет, видео со все более проворными антропоморфными машинами от Boston Dynamics вызывают у нас трепет или ужас. Всего пару лет назад эти гуманоиды развили способность вставать, когда мы сбивали их с ног. Затем они начали ловко паркур, обходя наши искусственные препятствия. Теперь они элегантно превосходят большинство людей в гимнастике. Все это изображает обманчивую историю быстрой эволюции интеллекта роботов. Но на самом деле эти роботы все еще далеки от интеллекта, чтобы складывать наше белье, не говоря уже о том, чтобы стать нашими властителями.

В повествование о захвате роботов играет много шумихи. Цель этого сообщения в блоге - представить некоторые захватывающие открытия в исследованиях робототехники, при этом разоблачая факты от вымысла.

Роботы широко используются в производстве с 1960-х годов. Хотя мы все это время называем их роботами, более подходящим названием было бы «перепрограммируемые двигательные машины». Они явно запрограммированы на повторение траекторий каждый раз точно так же. Им не хватает интеллекта для самоадаптации, если их окружение или задача изменится даже незначительно.

А теперь перенесемся в сегодняшний день - почти ничего не изменилось. Почти все развернутые роботы-манипуляторы по-прежнему не интеллектуальны и ограничены высокоструктурированной производственной средой. Тем не менее, если мы заглянем за стены заводов, мир полон монотонных задач по логистике, доставке, сельскому хозяйству, строительству и транспортировке, которые важны для автоматизации. Причина, по которой многие из этих трудоемких работ еще не автоматизированы, заключается в том, что они по своей природе обладают огромной вариативностью - ахиллесовой пятой роботов.

Одним из примеров повторяющейся, но чрезвычайно разнообразной задачи является «сбор и упаковка» в центрах выполнения заказов электронной коммерции. Эта работа требует правильного обращения с миллионами различных продуктов - все разного размера, формы, веса, цвета, текстуры, жесткости и хрупкости. Не существует универсального решения для обработки любого объекта. Как люди, мы воспринимаем нашу врожденную способность захватывать, собирать, разбирать, переориентировать, складывать, упаковывать и вообще манипулировать любым объектом как должное. Для роботов это очень сложно.

Помимо отсутствия общего интеллекта, роботы по-прежнему очень дороги. Обычное оружие от UR, Kuka, Franka, Yaskawa, Fanuc и ABB начинается от 20 тысяч долларов и может легко стоить более 100 тысяч долларов.

Неспособность справиться с изменчивостью наряду с высокой ценой затрудняет обоснование экономической эффективности большинства роботизированных приложений - это причина, по которой многие роботизированные стартапы терпят неудачу. Если вы замените флиппер для бургеров в ресторане быстрого питания роботом, вы не заменяете одного сотрудника. Вы заменяете намного меньше. За одну минуту человек может переворачивать гамбургеры. Когда они не переворачивают бургеры, они могут жарить картошку фри, вытирать столы, убирать ванные комнаты или принимать заказы. Замена небольшой части минимальной заработной платы наемного работника не является финансово привлекательной, особенно учитывая стоимость и практическую сложность внедрения такой технологии. Многие приложения-роботы страдают от этой дилеммы.

Создание жизнеспособного варианта использования робототехники

Если ваша цель - создать полноценное приложение для роботов и успешно развернуть его сегодня в реальном мире, я рекомендую учитывать следующее:

1. Цена, которую вы взимаете со своего клиента, должна составлять долю от общей стоимости рабочей силы, которую вы заменяете в течение некоторого разумного периода времени (обычно не более 2 лет). В качестве альтернативы спрос на труд, который может выполнять ваш робот, должен быть чрезвычайно высоким, до такой степени, что доступный человеческий труд не желает или не в состоянии предоставить весь необходимый труд.

2. Роботы - это не люди. Модернизация среды, предназначенной для людей с роботами, ВСЕГДА будет менее оптимальной в долгосрочной перспективе, чем проектирование среды с учетом возможностей робота. Роботы любят структуру, поэтому дайте им как можно больше структуры, если это не требует чрезмерных затрат или дополнительных трудозатрат для клиента. Точно так же мы не должны разрабатывать роботов, которые точно имитируют то, что мы находим в природе. Тот факт, что люди делают что-то определенным образом, не означает, что нет более простого и оптимального решения, доступного с помощью современной инженерии. См. Пример кубика Рубика…

3. Создайте решение, которое действительно хорошо подходит для одной задачи. В большинстве приложений заказчик ожидает решения, а не части решения, которое ему затем нужно объединить с другими технологиями, чтобы создать реальное решение. Кроме того, обычно ожидается, что это решение будет работать 99,9% времени. Успех 95% (в упрощенном лабораторном сценарии) может показаться в академических кругах, но в промышленности это не повредит. Следуя стандартной кривой обучения и принципу Парето, труднее всего получить последние 5%, и они почти всегда сводятся к крайним случаям инженерии, а не к фундаментальным исследованиям. Сосредоточьтесь на одном продукте в целом и доставьте его с высочайшей степенью надежности.

4. Выберите задачу, которую роботы могут надежно выполнить в течение нескольких лет. Если сегодня вы не можете полностью автоматизировать задачу с надежностью 99,9%, сузьте объем задачи, добавьте дополнительную структуру или используйте телеоператоров для обработки крайних случаев. Пока соотношение телеоператора и робота является экономичным, телеоператоры могут дать роботам ловкость, в которой они нуждаются сегодня, помогая обучать их становиться все более умными и полностью автономными с течением времени. Так делают Шустрый, Фантом Авто, Киви и другие.

Boston Dynamics, самая передовая робототехническая компания в мире, изо всех сил пыталась успешно коммерциализировать своих роботов из-за их высокой стоимости и неясной ценности. Хотя их видео поражают всех нас, в конечном итоге два показателя, стоимость и ценность, определяют принятие любой технологии. Робототехника - какой бы крутой она ни была - не исключение.

В этом сообщении блога обсуждается прогресс, достигнутый в улучшении соотношения стоимость: ценность роботов (то, что я назову соотношением Jetsons) на несколько порядков, чтобы мы могли продолжать развертывать больше роботов в реальных условиях. мир во все более сложных и полезных задачах.

Роботизированная проблема с курицей и яйцом

В основе нынешнего ужасного соотношения Джетсона лежит классическая проблема курицы и яйца. Роботы дороги, потому что они еще не производятся серийно. Они еще не производятся массово, потому что не представляют реальной ценности для обычного потребителя. Они пока не представляют ценности для обычного потребителя, потому что еще не умны. Они еще не умны, потому что нет крупномасштабного набора данных, на котором их можно было бы обучить. Нет крупномасштабного набора данных, потому что роботы не производятся массово. Мы вернулись к началу.

Тем не менее, у этого порочного круга есть выход, и он заключается в том, чтобы оседлать волны успеха коммерческой индустрии дронов и исследований в области глубокого обучения.

Как дроны стали катализаторами дешевых роботов

Последние рыночные факторы, такие как бурный рост индустрии потребительских дронов и скутеров, оправдывают массовое производство двигателей и электроники для робототехники. Хотя эти компоненты не предназначены специально для использования в шарнирных конечностях роботов, они стали катализатором появления нового поколения недорогих роботов.

Исследования, проведенные сообществом роботов на ногах, позволили создать новый недорогой, но высокопроизводительный актуатор, названный квазипрямым приводом. Такие роботы, как GOAT, Minitaur и Mini Cheetah из Массачусетского технологического института, были разработаны для уравновешивания неизбежных компромиссов между контролем силы (требуется для безопасного взаимодействия с людьми), высокой плотностью крутящего момента (требуется для взаимодействия с домашними объектами с помощью робота разумного размера), механической прочности и невысокой стоимости. Точно так же синие руки за 5000 долларов используют ту же схему срабатывания квазинепрямого привода, что позволяет создать мощный манипулятор с управляемым усилием по невысокой цене.

Секрет этих сверхдешевых роботов заключался в переоборудовании серийно выпускаемых «беспилотных» двигателей с настраиваемой приводной электроникой, недорогими магнитными энкодерами, одноступенчатой трансмиссией и усовершенствованным полевым управлением. Эта комбинация проложила путь для высокопроизводительных роботизированных приводов за десятую стоимости традиционных приводов для робототехники от таких поставщиков, как Maxon, AMC, Elmo, Harmonic Drive и т. Д. Это нововведение станет переломным моментом точка грядущей революции роботов.

Глубокое обучение роботов

Глубокое обучение, хотя и не является ответом на все наши проблемы, обещает освободить роботов от производства и превратить их в варианты использования со значительно большей вариативностью. Вместо того, чтобы явно программировать роботов для любого и каждого сценария, глубокое обучение, когда требуется данные, использует опыт для изучения стратегий управления, которые могут адаптироваться к новым сценариям на лету без явных инструкций.

В отличие от большинства приложений глубокого обучения, которые выполняют визуальное понимание и рассуждение, роботы должны уметь действовать в соответствии с воспринимаемой средой . Это требует точного пространственно-временного понимания мира. Для этого требуется значительно больше данных, чем при использовании нейронной сети, чтобы определить, содержит ли изображение собаку, кошку или самолет.

Недостаток разнообразных крупномасштабных наборов данных о роботах лежит в основе нашей проблемы с курицей и яйцом, и нет единого мнения о том, как собрать широко полезный набор данных. В отличие от видео, аудио, изображений и текста, которых много в Интернете и в повседневной жизни, роботов нет. Сбор данных о реальных роботах занимает много времени, потенциально опасен и дорог.

Однако с развернутым парком недорогих роботов обучение, безусловно, масштабируемо. Каждый робот может учиться на коллективном опыте других роботов, так что каждый новый робот, развернутый в распределенной сети, не нуждается в переобучении - настоящий коллективный разум роботов.

Перед развертыванием парка недорогих роботов нам сначала нужно ответить на 4 вопроса, чтобы убедиться, что мы можем должным образом учиться на собранном опыте роботов.

1. Какой размер и распределение набора данных необходимы для обобщения изученной задачи на различные ситуации?

В контексте создания личного домашнего робота мы хотели бы, чтобы один и тот же робот одинаково хорошо работал у меня дома и у вас. Но проблема в том, что каждый дом кардинально отличается. Разная мебель, разное освещение, разные полы и планировки, разные дверные ручки и техника… все по-разному. Как определить соответствующий размер выборки и разнообразие данных, которые необходимо собрать, чтобы роботы не слишком подходили к тому набору домов, в котором они были обучены, а вместо этого могли обобщать, чтобы открывать двери или убирать комнаты одинаково хорошо в любом доме?

2. Какой набор данных датчиков наиболее удобен для обучения?

Нужны ли нам визуальные данные с камер; Данные трехмерного облака точек, полученные с помощью глубиномеров или лидара; данные о траектории и движении от энкодеров; тактильные, проприоцептивные или тактильные данные от тензодатчиков, мягких сенсоров искусственной кожи, сенсора GelSight; или какое-то сложное их сочетание?

Скорее всего, для разных задач требуются разные способы восприятия. Для захвата предмета могут потребоваться только камеры, но переориентация объекта после того, как он был схвачен, может быть осуществлен более эффективно с некоторой формой тактильной информации.

Тот же вопрос существует и для беспилотных автомобилей. С одной стороны, Илон Маск утверждает, что полностью автономные транспортные средства могут быть созданы без дорогостоящих лидаров. С другой стороны, многие ведущие исследователи ИИ и другие производители беспилотных автомобилей, такие как Waymo, не согласны с этим. Нет единого мнения по поводу минимального необходимого набора датчиков.

3. Каков лучший сигнал вознаграждения за наши данные?

Возможно, самый сложный вопрос - это определить, как сообщить роботам, если их действия во время каждого опыта были успешными, чтобы они могли узнать, какие действия приводят к успеху, а какие - к неудаче. Роботы могут быть спроектированы таким образом, чтобы делать это автоматически, с помощью самоконтроля или обучения с подкреплением. В качестве альтернативы люди могут вручную предоставить демонстрации или аннотации, показывающие успешные или неудачные действия. Сложная часть - определить обобщаемую структуру для определения вознаграждений, чтобы для каждой задачи не требовался собственный список точно настроенных условий или демонстраций, чтобы классифицировать поведение как хорошее или плохое.

4. Как мы должны сформулировать проблему обучения?

Изучим ли мы сквозные модели или разумнее использовать человеческий интеллект для постановки задач таким образом, чтобы упростить то, что нейронная сеть должна изучать? Например, с захватом мы можем попытаться выучить сквозные позы захвата с 6 степенями свободы прямо из необработанных входных пикселей. В качестве альтернативы, мы можем кадрировать захват как проблему сегментации изображения, используя полностью сверточные сети, чтобы классифицировать каждый пиксель как хорошую или плохую область для захвата объекта, и в качестве пост-обработки использовать нормали поверхности, вычисленные из изображений глубины, чтобы получить полные 6 -DoF захват позы. Последний метод более эффективен в отношении данных, поскольку проблема упрощается, а пространство действий сокращается с 6 измерений до 2. Классический компромисс этого упрощенного подхода заключается в том, что метод больше не может быть обобщен для множества различных задач манипуляции - каждой последующей задачи. потребует значительного переоснащения и сбора данных.

Точно так же OpenAI обучил Shadow Hand с высокой степенью свободы собрать кубик Рубика. Однако вместо того, чтобы обучать нейронную сеть просто решать куб сквозным способом, они разбили проблему на множество подзадач, используя конвейерную подход. Чтобы решить головоломку куба, они используют обычный алгоритм решения куба - алгоритм Коциембы. Вместо того, чтобы использовать камеру для определения состояния и ориентации куба посредством визуального восприятия - как люди - они вместо этого оснастили куб различными внутренними датчиками. Вместо того, чтобы научиться управлять любой гранью куба, они используют человеческую интуицию относительно того, какая грань рука лучше всего вращается (верхняя грань), и ограничивают движения решения, чтобы вращать только верхнюю грань. Таким образом, они взяли сложную задачу, такую как решение кубика Рубика, и значительно упростили задачу обучения, сузив объем до простого обучения 1) как вращать только верхнюю грань куба и 2) как переориентируйте любую грань так, чтобы она была верхней гранью куба. Остальное они оставили на усмотрение традиционной инженерии и неизученных алгоритмов.

Хотя подцели ручного проектирования делают приобретенные навыки менее универсальными, они упрощают изучение поставленной задачи и повышают надежность выполнения. Подробнее о сквозном и конвейерном подходах мы поговорим в Части 2.

Существует множество системных архитектур, выбор дизайна которых имеет врожденные компромиссы и последствия в зависимости от того, сколько данных вам нужно и насколько хорошо ваша конечная модель может быть обобщена для различных роботов, различных задач и различных сред. Знание того, чему научить нейронную сеть и на каких данных она должна учиться, может значительно сократить объем необходимых данных.

Часть 2 этого поста обсуждает умные, современные направления исследований, чтобы узнать, как мы можем добиться прогресса в решении каждого из 4 вопросов, изложенных в этом посте!

Обо мне

Я аспирант робототехники в Stanford’s Vision and Learning Lab и основатель Nimble, стартапа, создающего роботизированный коллективный разум для автоматизации сложных задач на складах.

Спасибо моим замечательным друзьям и коллегам Чипу Хуену, Эвану Акерману, Андрею Куренкову и Джордану Доусону за их отзывы и предложения по этому посту!

Twitter: @simonkalouche