Последняя разработка NVIDIA обладает поистине новаторским потенциалом для обучения ИИ.

Компания продемонстрировала новую модель искусственного интеллекта, используя небольшой набор данных — лишь часть обычно необходимого для работы генеративно-состязательной сети (GAN), — на примере произведений искусства из Метрополитен-музея.

На основе этой базы искусственный интеллект NVIDIA смог создать новые изображения, которые воспроизводят стиль оригинальной работы художника. Затем их можно использовать для обучения дальнейших моделей ИИ.

ИИ достиг столь впечатляющего уровня, применив революционную технику обучения нейронной сети, аналогичную популярной модели NVIDIA StyleGAN2.

Этот метод называется Adaptive Discriminator Augmentation (ADA), и NVIDIA утверждает, что он уменьшает количество требуемых обучающих образов в 10-20 раз, при этом сохраняя отличные результаты.

Дэвид Любке (David Luebke), вице-президент по графическим исследованиям NVIDIA, подчеркивает:

«Эти результаты означают, что люди могут использовать GAN для решения проблем, в которых трудно получить большие объёмы данных или их обработка требует слишком много времени.
Мечтаю поскорее увидеть, как художники, медицинские эксперты и исследователи начнут использовать нашу разработку».

С особым успехом исследования NVIDIA могут быть применены в здравоохранении. Например в создании изображений гистологии рака для обучения других моделей ИИ.

Этот прорыв поможет решить большинство проблем, характерных для актуальной работы с наборами данных.

Для обучения ИИ часто требуются значительные блоки информации, но они не всегда доступны. С другой стороны, трудно гарантировать, что их содержание будет подходящим и не приведет непреднамеренно к алгоритмическому смещению.

Ранее в этом году Массачусетский технологический институт был вынужден удалить большой набор данных под названием ’80 миллионов крошечных изображений’, популярный для обучения ИИ, поскольку удалось обнаружить, что он содержит изображения, помеченные расистскими, женоненавистническими и другими неприемлемыми терминами.

В заявлении на веб-сайте Массачусетского технологического института утверждается, что об оскорбительных ярлыках не было известно и они стали «следствием автоматической процедуры сбора информации, основанной на существительных из WordNet».

Далее объясняется, что содержащиеся в наборе 80 миллионов изображений имеют размер всего 32×32 пикселя — значит, ручная проверка почти невозможна и не гарантирует, что все оскорбительные изображения будут удалены.

Начав с небольшого набора данных, проверенного вручную, можно использовать такую ​​технику, как NVIDIA ADA, для создания новых изображений, которые имитируют оригиналы и могут масштабироваться до необходимого размера для тренировки моделей ИИ.

В своём блоге NVIDIA пишут:

«Обычно для подготовки высококачественной GAN требуется от 50 000 до 100 000 обучающих изображений. Но во многих случаях у исследователей просто нет в распоряжении десятков или сотен тысяч образцов.
Имея всего пару тысяч изображений для обучения, многие сети GAN не смогут дать реалистичные результаты. Эта проблема, называемая переобучением, возникает, когда дискриминатор просто запоминает обучающие образы и не способен обеспечить полезную обратную связь с генератором».

Вы можете найти полную исследовательскую работу NVIDIA здесь (PDF). Этот документ был представлен на NeurIPS в этом году как одна из 28 лучших работ NVIDIA Research, принятых на престижную конференцию.

Источник: https://artificialintelligence-news.com/2020/12/07/nvidia-emulates-images-small-datasets-ai-training/

от AI_NEWS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *