Планы этажей полезны для визуализации пространств, планирования маршрутов и передачи архитектурных проектов. Например, робот, входящий в новое здание, может использовать план этажа, чтобы быстро определить общую планировку. Создание планов этажей обычно требует полного пошагового руководства, чтобы 3D-датчики и камеры могли запечатлить всё пространство. Но исследователи из Facebook, Техасского университета в Остине и Университета Карнеги-Меллона изучают метод ИИ, который использует визуальные и звуковые эффекты для реконструкции плана этажа из короткого видеоклипа.

Исследователи утверждают, что звук предоставляет пространственные и семантические сигналы, дополняющие картографические возможности изображений. Это происходит потому, что звук по своей природе преображается геометрией объектов. Звуковые отражения отскакивают от поверхностей и раскрывают форму комнаты далеко за пределами поля зрения камеры. Звуки, слышимые издалека, — даже через несколько комнат — помогают выявить существование «свободных пространств», где могут находиться звучащие объекты (например, лай собаки в другой комнате). Более того, слыша звуки с разных сторон, вы обнаружите объекты, основываясь на действиях или вещах, которые эти звуки представляют. Например, душевая кабина может указывать на ванную комнату, а звуковые сигналы микроволновой печи — на кухню.

Подход исследователей, который они называют AV-Map, направлен на преобразование коротких видеороликов с многоканальным звуком в двухмерные планы этажей. Модель машинного обучения использует последовательности аудио- и визуальных данных, чтобы понять структуру и семантику плана этажа, объединяя информацию из аудио и видео с помощью компонента декодера. Планы этажей, генерируемые AV-Map, которые значительно выходят за пределы области, непосредственно наблюдаемой на видео, показывают свободное пространство и занятые области, разделённые на дискретный набор семантических меток комнат (например, гостиная и кухня).

Команда экспериментировала с двумя установками, активной и пассивной, в цифровых средах из популярных наборов данных Matternet3D и SoundSpaces, загруженных в AI Habitat Facebook. В первом случае ученые использовали виртуальную камеру, воспроизводя определённый звук, пока она перемещалась по комнате модельного дома. Во втором они полагались только на естественные звуки, издаваемые предметами и людьми внутри дома.

Исследователи говорят, что в видеороликах, записанных в 85 больших реальных многокомнатных окружениях AI Habitat, AV-Map не только неизменно превосходит традиционное картографирование на основе зрения, но и улучшает современную технику экстраполяции карт занятости за пределы видимых областей. Сделав всего лишь несколько беглых взглядов, охватывающих 26% площади, AV-Map может прикинуть всё пространство с точностью 66%.

«Короткая видеопрогулка по дому может реконструировать видимые части плана этажа, но не позволяет увидеть многие области. Мы представляем аудиовизуальную реконструкцию плана этажа, где звуки в окружающей среде помогают вывести геометрические свойства скрытых областей, а также семантические метки ненаблюдаемых комнат (например, звуки, когда человек готовит еду за стеной слева от камеры, намекают на кухню), — сообщили исследователи в статье с подробным описанием AV-Map. — В будущей работе мы планируем рассмотреть возможность расширения многоуровневых планов этажей и связать нашу идею картографии с роботом-агентом, активно управляющим камерой… Насколько нам известно, наша попытка вывести планы этажей на основе аудиовизуальных данных стала первой».

Источник: https://venturebeat.com/2021/01/07/researchers-design-ai-that-can-infer-whole-floor-plans-from-short-video-clips/

от AI_NEWS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *