Montezuma’s Revenge обманчиво сложна для решения алгоритмом
Учёные придумали компьютерную программу, которая может освоить множество исследовательских игр 1980-х годов, проложив путь для более самодостаточных роботов.
Они создали семейство алгоритмов (программных инструкций для решения проблемы), позволяющих пройти классические игры Atari, такие как Pitfall.
Раньше эти сайд-скроллеры было сложно решить с помощью искусственного интеллекта.
Алгоритмы могут помочь роботам лучше ориентироваться в реальных условиях.
Это остаётся основной проблемой в области робототехники и искусственного интеллекта. Рассматриваемые типы окружающей среды включают зоны бедствий, куда могут быть отправлены роботы для поиска выживших, или даже обычный дом.
Работа в этом исследовании относится к области исследований ИИ, известной как обучение с подкреплением.
Ряд игр, используемых в исследовании, требуют, чтобы пользователь исследовал лабиринты, содержащие награды, препятствия и опасности. Семейство алгоритмов, известных под общим названием Go-Explore, значительно улучшило предыдущие попытки пройти игры, такие как вышедшая в 1984 году Montezuma’s Revenge, Freeway (1981) и вышеупомянутая Pitfall (1982).
Один из способов, которым исследователи добились этого, заключался в разработке алгоритмов, которые создают архивы областей, которые они уже посетили.

«Наш метод действительно довольно прост и понятен, хотя это часто бывает с научными открытиями, — сказали исследователи Адриен Экоффет (Adrien Ecoffet), Джуст Хейзинга (Joost Huizinga) и Джефф Клун (Jeff Clune), отвечая на вопросы, отправленные по электронной почте. — Причина, по которой наш подход не рассматривался ранее, заключается в том, что он сильно отличается от доминирующего подхода, который исторически использовался для решения этих проблем в сообществе обучения с подкреплением, называемого ‘внутренней мотивацией’. Во внутренней мотивации вместо того, чтобы делить исследование на разведку и возвращение, как это делаем мы, агент просто вознаграждается за открытие новых областей».
Проблема с подходом внутренней мотивации заключается в том, что при поиске решения алгоритм может «забыть» о многообещающих зонах, которые ещё предстоит изучить. Это известно как «непривязанность».
Команда нашла способ преодолеть это: путём составления архива областей, которые он посетил, алгоритм может вернуться к многообещающему промежуточному этапу игры в качестве точки для дальнейшего исследования.

Но была ещё одна проблема с предыдущими подходами к освоению этих игр. «Они полагаются на случайные действия, которые могут быть предприняты в любой момент времени, в том числе пока агент все ещё движется в направлении области, которую действительно необходимо исследовать, — сообщили BBC News учёные. — Если у вас есть среда, в которой ваши действия должны быть точными и определёнными, например игра со множеством опасностей, которые могут мгновенно убить вас, такие случайные действия могут помешать вам добраться до области, которую вы действительно хотите исследовать».
Технический термин для этого — «сход с рельсов».
Новый метод, описанный в престижном журнале Nature, решает проблему схода с рельсов, отделяя процесс возвращения в ранее посещённые зоны от процесса изучения новых, — и проводит их по-разному.
Члены команды, которые работали в Uber AI Labs в Калифорнии, заявили, что эта работа поддаётся алгоритмам, используемым для управления роботами в домашних или промышленных условиях.
Они говорят, что Go-Explore предназначен для решения давних проблем в обучении с подкреплением. «Подумайте о том, чтобы попросить робота принести вам кофе: практически нет шансов, что он будет управлять кофемашиной, просто действуя случайным образом».
Учёные добавили: «Помимо робототехники, Go-Explore уже провела несколько экспериментальных исследований по изучению языка, где агент узнаёт значение слов, исследуя текстовую игру, и по обнаружению потенциальных сбоев в поведении робомобиля».
Источник: https://www.bbc.com/news/science-environment-56194855