Одна из давних целей исследований ИИ — позволить роботам конструктивно взаимодействовать с реальной средой. В недавней статье исследователи из Стэнфорда и Facebook сделали шаг к этому, структурируя информацию, относящуюся к таким действиям, как толкание или вытягивание объектов с подвижными частями, и используя её для обучения модели ИИ. Например, для выдвижного ящика их модель может предсказать, что приложение тянущего усилия к ручке откроет ящик.

Как отмечают исследователи, люди взаимодействуют со множеством окружающих их объектов, поскольку способны предугадать, что можно сделать с каждым предметом, где это взаимодействие может происходить и как мы должны двигать нашим телом, чтобы достичь этого. Люди не только понимают, какие действия будут успешными, но и интуитивно знают, какие из них не принесут успеха.

Соавторы рассматривали долгосрочное взаимодействие с объектами как последовательность краткосрочных «атомарных» взаимодействий, таких как толкание и тяга. Это ограничивало объём их работы правдоподобными краткими взаимодействиями, которые робот мог выполнять с учётом текущего состояния объекта. Эти взаимодействия были далее разбиты на «где» и «как» — например, за какую ручку шкафа робот должен тянуть, и параллельно или перпендикулярно ручке.

Эти наблюдения позволили исследователям сформулировать свою цель как задачу плотного визуального предсказания. Они разработали модель, которая, учитывая глубину или цветность изображения объекта, научилась делать выводы о том, можно ли выполнить определенное действие и как оно должно быть выполнено. Для каждого пикселя модель предоставила оценку «действенности», предложения действий и вероятность успеха.

«Наш подход позволяет агенту изучать эти вещи, просто взаимодействуя с различными объектами и записывая результаты своих действий, отмечая те, которые вызывают желаемое изменение состояния, как успешные, — сообщают соавторы. — Мы эмпирически показали, что наш ИИ успешно учится предсказывать возможные действия для новых объектов, и даже для тех, что не видел ранее».

Исследователи использовали симулятор под названием SAPIEN для изучения и тестирования своего подхода к шести типам взаимодействий, охватывающих 972 формы из 15 наиболее часто встречающихся категорий внутренних объектов. В ходе экспериментов они визуализировали прогнозы оценки действий модели на основе реальных 3D-сканирований из наборов данных с открытым исходным кодом. Хотя разработчики признают, что нет никакой гарантии для прогнозов по пикселям за пределами сочленённых частей, результаты имели бы смысл, если б движение было разрешено для всех объектов.

«Наша модель учится извлекать геометрические элементы, которые зависят от действий и захватов. Например, для вытягивания она предсказала более высокие баллы по участкам с высокой кривизной, таким как границы деталей и ручки, в то время как для толкания почти все пиксели плоской поверхности, принадлежащие толкаемой части, одинаково подсвечиваются, а пиксели вокруг ручек, как разумно прогнозируется, не будут пригодны из-за столкновений объекта с захватом… Хотя мы используем моделируемые среды для обучения, поскольку они обеспечивают эффективное взаимодействие, мы также обнаруживаем, что наша опытная система обобщается до реальных сканов и изображений».

Исследователи признают, что их работа имеет ограничения. Во-первых, модель может принимать только один кадр в качестве входных данных, что вносит неоднозначность, если шарнирная часть находится в движении. Она также ограничена жёстко запрограммированными траекториями движения. Однако в будущем соавторы планируют развить модель до произвольного взаимодействия.

Источник: https://venturebeat.com/2021/01/08/stanford-researchers-propose-ai-that-figures-out-how-to-use-real-world-objects/

от AI_NEWS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *