Facebook вкладывает много времени и денег в дополненную реальность, в том числе в создание собственных AR-очков с помощью Ray-Ban. Прямо сейчас эти гаджеты могут только записывать изображения и обмениваться ими, но для чего, по мнению компании, такие устройства будут использоваться в будущем?
Новый исследовательский проект, возглавляемый командой ИИ Facebook, определяет масштаб амбиций компании. Он представляет системы искусственного интеллекта, которые постоянно анализируют жизнь людей с помощью видео от первого лица; записывают то, что они видят, делают и слышат, чтобы помочь им в выполнении повседневных задач. Исследователи Facebook описали ряд навыков, которые они хотят развить в этих системах, включая “эпизодическую память” (ответы на такие вопросы, как “где я оставил свои ключи?”) и “аудиовизуальную запись” (запоминание того, кто что сказал и когда).
“В БУДУЩЕМ ЕСТЬ ВОЗМОЖНОСТИ ДЛЯ ИСПОЛЬЗОВАНИЯ ТАКОГО РОДА ИССЛЕДОВАНИЙ”
Прямо сейчас задачи, описанные выше, не могут быть надежно решены ни одной системой искусственного интеллекта, и Facebook подчеркивает, что это исследовательский проект, а не коммерческая разработка. Тем не менее очевидно, что компания рассматривает подобную функциональность как будущее AR-вычислений. “Определенно, думая об дополненной реальности и о том, что мы хотели бы с ней делать, мы видим в будущем возможности для использования такого рода исследований”, — сказала The Verge научный сотрудник Facebook по искусственному интеллекту Кристен Грауман.
Такие амбиции имеют огромные последствия для конфиденциальности. Эксперты уже обеспокоены тем, как AR-очки Facebook позволяют пользователям скрытно записывать видео в общественных местах. Такие опасения только усугубятся, если будущие версии аппаратного обеспечения не только станут записывать отснятый материал, но и анализировать и расшифровывать его, превращая пользователей в ходячие машины наблюдения.
:no_upscale()/cdn.vox-cdn.com/uploads/chorus_asset/file/22834538/alopez_210907_4736_0006.jpg)
Разработка исследовательского проекта Facebook Ego4D относится к анализу видео от первого лица, или “эгоцентрического” видео. Она состоит из двух основных компонентов: открытого набора данных эгоцентрического видео и ряда тестов, которые, по мнению Facebook, системы искусственного интеллекта должны быть в состоянии обрабатывать в будущем.
FACEBOOK ПОМОГ СОБРАТЬ 3205 ЧАСОВ ВИДЕОЗАПИСЕЙ ОТ ПЕРВОГО ЛИЦА СО ВСЕГО МИРА
Этот набор данных является крупнейшим в своем роде из когда-либо созданных, и Facebook сотрудничает с 13 университетами по всему миру для сбора данных. В общей сложности около 3205 часов видеозаписи было создано 855 участниками, проживающими в девяти разных странах. За сбор данных отвечали университеты, а не Facebook. Участники, некоторые из которых были оплачены, носили камеры GoPro и очки AR для записи видео своей деятельности — от строительных работ до выпечки, игр с домашними животными и общения с друзьями. Все отснятые кадры были деидентифицированы университетами, что включало размытие лиц случайных прохожих и удаление любой личной информации.
Г-жа Грауман говорит, что набор данных является “первым в своем роде как по масштабу, так и по разнообразию”. Ближайший сопоставимый проект, по ее словам, содержит 100 часов видеоматериалов от первого лица, снятых полностью на кухнях. “Мы открыли глаза этим системам искусственного интеллекта не только на кухни в Великобритании и Сицилии, но и [на кадры] из Саудовской Аравии, Токио, Лос-Анджелеса и Колумбии”.
Второй компонент Ego4D — это серия тестов или задач, которые Facebook просит исследователей по всему миру решить с помощью систем искусственного интеллекта, обученных на его наборе данных. Компания описывает их как:
Эпизодическая память: Что произошло, когда (например, “Где я оставил свои ключи?”)?
Прогнозирование: Что я, скорее всего, сделаю дальше (например, “Я уже добавил соль в этот рецепт”)?
Манипуляция руками и предметами: Что я делаю (например, “Научи меня играть на барабанах”)?
Аудиовизуальный дневник: Кто что и когда сказал (например, “Какой была основная тема во время урока?”)?
Социальное взаимодействие: Кто с кем взаимодействует (например, “Помогите мне лучше слышать человека, разговаривающего со мной в этом шумном ресторане”)?
Прямо сейчас системам искусственного интеллекта было бы невероятно сложно решить любую из этих проблем, но создание наборов данных и тестов — это проверенные методы, стимулирующие развитие в области искусственного интеллекта.
Действительно, создание одного конкретного набора данных и связанный с ним ежегодный конкурс, известный как ImageNet, часто приписывают началу недавнего бума ИИ. Наборы данных ImagetNet состоят из изображений огромного разнообразия объектов, идентифицировать которые исследователи обучили системы искусственного интеллекта. В 2012 году победительница конкурса использовала особый метод глубокого обучения, чтобы превзойти своих конкурентов, открыв нынешнюю эру исследований.
:no_upscale()/cdn.vox-cdn.com/uploads/chorus_asset/file/22925967/Before_After_Detectron_ModelFINAL.png)
Facebook надеется, что его проект Ego4D окажет аналогичное влияние на мир дополненной реальности. Компания заявляет, что системы, обученные на Ego4D, однажды могут быть использованы не только в носимых камерах, но и в домашних роботах-помощниках, которые также полагаются на камеры от первого лица для навигации по окружающему миру.
“У проекта есть шанс действительно активизировать работу в этой области таким образом, который на самом деле еще не был возможен, — говорит г-жа Грауман. — Чтобы перейти от возможности анализировать груды фотографий и видео, снятых человеком с особой целью, к этому плавному, непрерывному визуальному потоку от первого лица, который системы AR, роботы, должны понимать в контексте текущей деятельности”.
РАЗРАБОТКА FACEBOOK СИСТЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ НАБЛЮДЕНИЯ БУДЕТ БЕСПОКОИТЬ МНОГИХ
Хотя задачи, которые ставит Facebook, безусловно, кажутся практичными, интерес компании к этой области будет беспокоить многих. Антирекорд Facebook по конфиденциальности ужасен, он охватывает утечки данных и штрафы в размере 5 миллиардов долларов от FTC. Также было неоднократно доказано, что компания ценит рост и вовлеченность выше благополучия пользователей во многих областях. Поэтому вызывает беспокойство тот факт, что контрольные показатели в проекте Ego4D не включают в себя особые гарантии конфиденциальности. Например, в задаче “аудиовизуальный дневник” (запись того, что говорят разные люди) никогда не упоминается удаление данных о людях, которые не хотят, чтобы их записывали.
Когда его спросили об этих проблемах, представитель Facebook сказал The Verge: он ожидает, что в дальнейшем будут введены гарантии конфиденциальности. “Мы полагаем, что в той мере, в какой компании будут использовать этот набор данных и эталон для разработки коммерческих приложений, они разработают и гарантии для таких приложений, — сказал пресс-секретарь. — Например, до того, как очки AR смогут улучшить чей-то голос, может существовать протокол, которому они следуют, чтобы попросить разрешения у чужих очков, или они могут ограничить диапазон устройства, чтобы оно могло улавливать звуки только от людей, с которыми я уже разговариваю или которые находятся в непосредственной близости от меня”.
На данный момент такие гарантии являются лишь гипотетическими.