Стоя на кухне, вы с лязгом перекидываете металлические миски через стол в раковину и вешаете полотенце на спинку стула. В другой комнате это звучит так, как будто упали несколько ненадежно сложенных деревянных блоков, и произошла эпическая авария с игрушечной машиной. Эти взаимодействия с нашей окружающей средой — лишь часть того, что люди ежедневно испытывают дома, но, хотя этот мир может казаться реальным, это не так.

Новое исследование исследователей Массачусетского технологического института, Лаборатории искусственного интеллекта MIT-IBM Watson, Гарвардского университета и Стэнфордского университета позволяет создать богатый виртуальный мир, очень похожий на “Матрицу”. Их платформа под названием ThreeDWorld (TDW) имитирует высококачественную аудио- и визуальную среду, как внутри, так и снаружи, и позволяет пользователям, объектам и мобильным агентам взаимодействовать так, как в реальной жизни, и в соответствии с законами физики. Ориентации объектов, физические характеристики и скорости рассчитываются и выполняются для жидкостей, мягких тел и твердых объектов по мере взаимодействия, создавая точные столкновения и звуки удара.

TDW уникален тем, что он разработан, чтобы быть гибким и обобщаемым, генерировать синтетические фотореалистичные сцены и визуализацию звука в реальном времени, которые могут быть скомпилированы в аудиовизуальные наборы данных, изменены в результате взаимодействия внутри сцены и адаптированы для тестов обучения и прогнозирования человека и нейронных сетей. Различные типы роботов-агентов и аватаров также могут быть созданы в рамках контролируемой симуляции для выполнения, скажем, планирования и выполнения задач. И, используя виртуальную реальность (VR), человеческое внимание и игровое поведение в пространстве могут, например, предоставлять данные реального мира.

“Мы пытаемся создать универсальную платформу моделирования, которая имитирует интерактивное богатство реального мира для различных приложений ИИ”, — говорит ведущий автор исследования Чжуан Гань, научный сотрудник лаборатории ИИ IBM Watson.

Создание реалистичных виртуальных миров, с помощью которых можно исследовать поведение людей и обучать роботов, было мечтой исследователей ИИ и когнитивных наук. “Большая часть ИИ прямо сейчас основана на контролируемом обучении, которое опирается на огромные наборы данных изображений или звуков, аннотированных человеком”, — говорит Джош Макдермотт, доцент кафедры мозга и когнитивных наук (BCS) и руководитель проекта MIT-IBM Watson AI Lab. Составление этих описаний обходится дорого, что создает узкое место для исследований. А для физических свойств объектов, таких как масса, которые не всегда легко видны человеческим наблюдателям, метки могут быть вообще недоступны. Такой симулятор, как TDW, устраняет эту проблему, создавая сцены, в которых известны все параметры и аннотации. Многие конкурирующие фирмы создавали с этой целью свои модели, но те были разработаны для конкретных приложений; благодаря своей гибкости TDW предназначен для обеспечения многих приложений, которые плохо подходят для других платформ.

Еще одним преимуществом TDW, отмечает Макдермотт, является то, что он обеспечивает управляемую настройку для понимания процесса обучения и облегчает совершенствование роботов-ИИ. Роботизированные системы, которые полагаются на метод проб и ошибок, будут обучаться в среде, где они не смогут причинить физического вреда. Кроме того, “многие из нас в восторге от дверей, которые открывают такого рода виртуальные миры для проведения экспериментов на людях, чтобы понять человеческое восприятие и познание. Существует возможность создания очень богатых сенсорных сценариев, в которых вы по-прежнему обладаете полным контролем и полным знанием того, что происходит в окружающей среде”.

Макдермотт, Ган и их коллеги представят это исследование на Конференции по системам обработки нейронной информации (NeurIPS) в декабре.

За рамками

Работа над проектом началась как сотрудничество группы профессоров Массачусетского технологического института со стэнфордскими и IBM-исследователями, связанными индивидуальными исследовательскими интересами в области слуха, зрения, познания и перцептивного интеллекта. TDW собрал их вместе на одной платформе. “Мы все были заинтересованы в идее создания виртуального мира с целью обучения систем искусственного интеллекта, которые мы могли бы фактически использовать в качестве моделей мозга, — объясняет г-н Макдермотт, который изучает человеческий и машинный слух. — Итак, мы подумали, что такая среда, в которой вы можете иметь объекты, которые будут взаимодействовать друг с другом, а затем передавать реалистичные сенсорные данные от них, станет ценнейшим ресурсом для обучения”.

Для достижения этой цели исследователи построили TDW на платформе видеоигр под названием Unity3D Engine и взяли на себя обязательство включать как визуальный, так и аудиальный рендеринг данных без какой-либо анимации. Моделирование состоит из двух компонентов: сборки, которая отображает изображения, синтезирует звук и выполняет моделирование физики, и контроллера, представляющего собой интерфейс на основе Python, в котором пользователь отправляет команды на сборку. Исследователи строят и заполняют сцену, извлекая из обширной библиотеки 3D-моделей объекты, такие как предметы мебели, животные и транспортные средства. Эти модели точно реагируют на изменения освещения, а их материальный состав и ориентация на сцене диктуют их физическое поведение в пространстве. Модели динамического освещения точно имитируют освещение сцены, вызывая тени и затемнение, соответствующие соответствующему времени суток и углу наклона солнца. Команда также создала виртуальные планы этажей, которые исследователи могут заполнить агентами и аватарами. Для синтеза реального звука TDW использует генеративные модели ударных звуков, которые запускаются в результате столкновений или других взаимодействий объектов в рамках моделирования. TDW также имитирует ослабление шума и реверберацию в соответствии с геометрией пространства и объектов в нем.

Два физических двигателя в TDW приводят в действие деформации и реакции между взаимодействующими объектами — один для твердых тел, а другой — для мягких объектов и жидкостей. TDW выполняет мгновенные расчеты массы, объема и плотности, а также любых сил трения или других сил, действующих на материалы. Это позволяет моделям машинного обучения узнать о том, как объекты с различными физическими свойствами будут вести себя вместе.

Пользователи, агенты и аватары могут оживлять сцены несколькими способами. Исследователь имеет возможность непосредственно прикладывать силу к объекту с помощью команд контроллера, которые способны буквально привести виртуальный шар в движение. Аватары могут быть наделены полномочиями действовать или вести себя определенным образом в пространстве — например, с сочлененными конечностями, способными выполнять задачи экспериментов. Наконец, VR-шлемы и телефоны могут позволить пользователям взаимодействовать с виртуальной средой, потенциально генерируя данные о поведении человека, на которых могут учиться модели машинного обучения.

Более богатый опыт работы с ИИ

Чтобы опробовать и продемонстрировать уникальные функции, возможности и приложения TDW, команда провела серию тестов, сравнивающих наборы данных, созданные TDW, и другие виртуальные симуляции. Разработчики обнаружили, что нейронные сети, обученные на снимках изображений сцены со случайно расположенными ракурсами камеры из TDW, превзошли снимки других симуляций в тестах классификации изображений и приблизились к системам, обученным на изображениях реального мира. Исследователи также создали и обучили модель классификации материалов на аудиоклипах небольших объектов, падающих на поверхности в TDW, и попросили ее определить типы взаимодействующих материалов. Они обнаружили, что TDW добилась значительных успехов по сравнению со своим конкурентом. Дополнительное тестирование отбрасывания объектов с помощью нейронных сетей, обученных на TDW, показало, что сочетание звука и зрения вместе является лучшим способом определения физических свойств объектов, мотивируя дальнейшее изучение аудиовизуальной интеграции.

TDW оказывается особенно полезным для проектирования и тестирования систем, которые понимают, как физические события в сцене будут развиваться с течением времени. Это включает в себя облегчение проверки того, насколько хорошо модель или алгоритм делает физические прогнозы, например, стабильности стеков объектов или движения объектов после столкновения — люди изучают многие из этих концепций в детстве, но многим машинам необходимо продемонстрировать эту способность, чтобы быть полезными в реальном мире. TDW также позволил сравнить человеческое любопытство и прогнозирование с таковыми у машинных агентов, предназначенных для оценки социальных взаимодействий в рамках различных сценариев.

Ган указывает, что эти приложения являются лишь верхушкой айсберга. Расширяя возможности физического моделирования TDW для более точного изображения реального мира, “мы пытаемся создать новые ориентиры для развития технологий искусственного интеллекта и использовать эти ориентиры для открытия многих новых проблем, которые до сих пор было трудно изучить”.

Исследовательская группа, представленная в статье, также включает инженеров Массачусетского технологического института Джереми Шварца и Сета Альтера, которые играют важную роль в работе TDW; профессоров BCS Джеймса Дикарло и Джошуа Тененбаума; аспирантов Эйдана Кертиса и Мартина Шримпа; и бывших аспирантов Джеймса Трера (ныне доцента Университета Айовы) и Ионаса Кубилиуса PhD ‘08. Их коллегами являются директор IBM в лаборатории искусственного интеллекта MIT-IBM Watson Дэвид Кокс; инженер-программист Абхишек Бхандвалдер; и научный сотрудник IBM Дэн Гутфройнд. Соавторами дополнительных исследователей являются доцент Гарвардского университета Джулиан Де Фрейтас; и из Стэнфордского университета доценты Даниэль Л. К. Яминс (основатель TDW) и Ник Хабер, постдок Даниэль М. Беар и аспиранты Мегуми Сано, Куно Ким, Элиас Ван, Дамиан Мровка, Кевин Фейгелис и Майкл Лингельбах.

Это исследование было поддержано лабораторией искусственного интеллекта MIT-IBM Watson.

Источник: https://news.mit.edu/2021/generating-realistic-3d-world-1206

от AI_NEWS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *