Ссылка на статью: ichter23a.pdf (mlr.press)

Ключевым вкладом статьи является предложение нового метода SayCan, который сочетает в себе большие языковые модели с роботизированными навыками и возможностями, чтобы позволить роботам следовать длинным и сложным инструкциям на естественном языке в реальном мире.

Ключевые идеи

  • SayCan позволяет роботам выполнять длинные и сложные инструкции на естественном языке, сочетая большие языковые модели (LLM) и роботизированные навыки.
  • LLM обеспечивает понимание инструкции на высоком уровне и предлагает полезные навыки. Навыки обеспечивают низкоуровневый контроль и функции ценности, представляющие аффордансы.
  • SayCan объединяет вероятность LLM того, что навык полезен, с вероятностью функции ценности, что навык будет успешным. Это обосновывает результаты LLM.
  • SayCan оценивается на реальном роботе, выполняющем 101 сложную кухонную задачу, достигая высоких показателей успеха. Он масштабируется до длинных инструкций и разнообразного языка.

Сэйкан

Модель большого языка (LLM)

SayCan состоит из двух основных компонентов. Первая - это большая языковая модель (LLM), такая как GPT-3, которая запрашивается для интерпретации инструкции и предложения полезных навыков путем оценки того, насколько вероятно, что описание каждого навыка завершает инструкцию. LLM обеспечивает семантические знания высокого уровня. Быстрая разработка направляет его для создания пошаговых планов, выраженных с помощью языка.

Роботизированные навыки

Второй компонент — это набор роботизированных навыков. У каждого навыка есть политика, полученная через RL или BC для управления на низком уровне, а также функция ценности, представляющая аффордансы — вероятность успешного выполнения этого навыка в текущем состоянии. Аффордансы обеспечивают заземление в реальном мире.

Эти два компонента объединяются путем умножения вероятности LLM того, что навык полезен, на вероятность функции ценности, что навык будет успешным. Это дает вероятность того, что использование этого навыка будет способствовать прогрессу в обучении. Выполняется навык с максимальной комбинированной вероятностью.

Процесс повторяется путем изменения подсказки с выбранным навыком до тех пор, пока не будет выбран навык завершения. Таким образом, LLM обеспечивает рассуждения высокого уровня, в то время как навыки и аффордансы обосновывают результаты. Ключевая идея состоит в том, чтобы объединить понимание языка и физическую подготовку, чтобы получить интерпретируемые и обоснованные планы.

Эксперименты

Метод SayCan оценивался на мобильном роботе, выполнявшем 101 реальную инструкцию в условиях офисной кухни. Инструкции различались по длине, сложности языка и начальному состоянию. Использовались две метрики — показатель успешности планирования (была ли предложенная последовательность навыков правильной) и показатель успешности выполнения (было ли успешно выполнено полное задание).

В учебной среде SayCan добился высокого успеха планирования 84% и успеха выполнения 74%. При тестировании на новой реальной кухне он по-прежнему продемонстрировал высокую производительность: 81 % планирования и 60 % успешного выполнения. Использование аффордансов повысило производительность по сравнению с простым использованием LLM примерно на 15%. SayCan хорошо справляется с длинными инструкциями из 10+ шагов. Он также разумно обобщается на новую среду. Даже краудсорсинговые инструкции на естественном языке выполнялись успешно.

Анализ показал, что большинство ошибок было связано с ограничениями, унаследованными от LLM, а не с функциями доступности. SayCan боролся с отрицанием, двусмысленными ссылками и иногда сталкивался с ошибками досрочного завершения в длинных инструкциях.

В целом, результаты подтверждают подход SayCan и демонстрируют высокую производительность при выполнении сложных многоэтапных инструкций в реальных роботизированных средах. В документе представлен надежный эмпирический анализ возможностей и ограничений SayCan.