Сообщество машинного обучения (ML) сталкивается с проблемой культуры информации, особенно в области компьютерного зрения и языковой обработки. Это следует из опубликованного ранее в этом месяце обзора исследований по сбору и использованию наборов данных сообщества.

Необходимо отказаться от использования больших, плохо организованных наборов, используемых для моделей обучения ML. Вместо этого исследователи рекомендуют заботиться о людях, представленных в наборах данных, и уважать их права на конфиденциальность и собственность. Но в сегодняшней среде ML, по словам авторов опроса, «всё идёт своим чередом».

Статью «Информация и её содержание: обзор разработки и использования массивов данных в машинном обучении» написали лингвисты Вашингтонского университета Амандалинн Пауллада (Amandalynne Paullada) и Эмили Бендер (Emily Bender), сотрудник Mozilla Foundation Иниолува Дебора Раджи (Inioluwa Deborah Raji) и учёные-исследователи Google Эмили Дентон (Emily Denton) и Алекс Ханна (Alex Hanna). В ней сделан вывод о том, что большие языковые модели обладают способностью запоминать предрассудки и предвзятость в отношении ряда маргинализированных сообществ, а плохо описанные наборы информации являются частью проблемы.

Эта работа также призывает к более строгим методам управления данными и практикам документации. Подготовленные таким образом наборы, несомненно, потребуют больше времени, денег и усилий, но будут «стимулировать работу над подходами к машинному обучению, которые выходят за рамки нынешней парадигмы техник, идолизирующих масштаб».

«Мы утверждаем, что исправления, которые сосредоточены исключительно на улучшении наборов данных, делая их более репрезентативными или более сложными, могут упускать общий момент, поднятый этими критическими замечаниями, и мы будем играть в ‘Ударь крота’ вместо того, чтобы добиваться прогресса, до тех пор, пока понятие ‘прогресс’ в значительной степени определяется производительностью этих наборов», — говорится в статье. «Если это произойдёт, мы прогнозируем, что машинное обучение как область будет лучше подготовлена ​​для понимания того, как технология влияет на людей, и для разработки решений, которые будут работать с точностью и справедливостью в контексте их размещения».

События прошедшего года выявили недостатки сообщества машинного обучения и часто причиняли вред людям из маргинализированных сообществ. После того, как Google уволили Тимнит Гебру (Timnit Gebru), сотрудники называют инцидент «беспрецедентной цензурой исследований». Reuters сообщили в среду, что компания начала проводить обзоры исследовательских работ на «деликатные темы» и что по крайней мере трижды авторов просили не выставлять технологии Google в плохом свете, согласно внутренним сообщениям и признаниям людей, знакомых с этим вопросом. И всё же профиль Гебру в Washington Post на этой неделе показал, что руководитель Google AI Джефф Дин (Jeff Dean) попросил её исследовать негативное влияние больших языковых моделей этой осенью.

В разговоре о GPT-3 соавтор проекта Эмили Бендер (Emily Bender) ранее сказала VentureBeat, что хочет, чтобы сообщество NLP уделяло приоритетное внимание хорошей науке. Бендер вместе с Гебру была одним из ведущих авторов статьи, созданной в начале этого месяца, после того, как Google уволили Гебру. В этой статье было рассмотрено, как использование крупных языковых моделей может повлиять на маргинализированные сообщества. На прошлой неделе организаторы конференции «Справедливость, подотчётность и прозрачность» (FAccT) приняли документ к публикации.

Также на прошлой неделе Ханна (Hanna) присоединилась к коллегам из группы по этическому ИИ в Google и отправила записку руководству Google с требованием восстановить Гебру в должности. В тот же день члены Конгресса, знакомые с алгоритмической предвзятостью, направили генеральному директору Google Сундару Пичаи (Sundar Pichai) письмо с требованием ответов.

Решение компании подвергнуть цензуре исследователей ИИ и уволить Гебру может иметь политические последствия. В настоящее время Google, Массачусетский технологический институт и Стэнфорд являются одними из самых активных или влиятельных площадок исследований ИИ, публикуемых на крупных ежегодных научных конференциях. Члены Конгресса предложили правила для защиты от алгоритмической предвзятости, в то время как эксперты призвали к увеличению налогов на большие технологии, отчасти для финансирования независимых исследований. VentureBeat недавно поговорили с шестью экспертами в области искусственного интеллекта, этики и права о том, как крах ИИ-этики Google может повлиять на политику.

Ранее в этом месяце проект «Информация и её содержание» получил награду от организаторов семинара «Ретроспективы, обзоры и метаанализы машинного обучения» в NeurIPS, исследовательской конференции по искусственному интеллекту, собравшей 22 000 участников. В этом году на NeurIPS было опубликовано около 2000 документов, в том числе работы, связанные с обнаружением сбоев в системах, критически важных для безопасности; методами для более быстрого и эффективного обратного распространения ошибки; и начало проекта, который рассматривает изменение климата как серьёзную задачу для ML.

Другой документ Ханна, представленный на семинаре Resistance AI, призывает сообщество машинного обучения выйти за рамки масштаба при рассмотрении того, как решать системные социальные проблемы, и утверждает, что необходимо сопротивляться стереотипу о масштабах. Ранее в этом году Ханна говорила с VentureBeat об использовании критической теории рас при рассмотрении вопросов, связанных с расой, идентичностью и справедливостью.

При обработке естественного языка в последние годы сети, созданные с использованием архитектуры нейронных сетей Transformer, и всё более крупные массивы данных получили высокие оценки производительности в таких тестах, как GLUE. BERT от Google и производные от BERT лидировали, за ними последовали такие сети, как MT-DNN от Microsoft, Megatron от Nvidia и GPT-3 от OpenAI. Представленная в мае GPT-3 — самая масштабная языковая модель на сегодняшний день. Статья о характеристиках модели получила одну из трёх наград за лучшую работу, присуждаемых исследователям NeurIPS в этом году.

Масштаб огромных наборов данных затрудняет тщательное изучение их содержимого. Это приводит к повторяющимся примерам алгоритмической предвзятости, которые возвращают неприлично необъективные результаты в отношении мусульман, гомосексуалистов или людей, не соответствующих ожидаемой гендерной идентичности, людей с ограниченными возможностями, женщин и чернокожих, а также других демографических групп.

Опасности больших массивов информации также демонстрируются в области компьютерного зрения, о чём свидетельствует объявление исследователей Стэнфордского университета в декабре 2019 года об удалении оскорбительных ярлыков и изображений из ImageNet. Модель StyleGAN, разработанная Nvidia, также давала необъективные результаты после обучения на большом наборе изображений. А после обнаружения сексистских и расистских изображений и маркировок создатели ’80 миллионов крошечных изображений’ извинились и попросили инженеров удалить и больше не использовать материал.

Источник: https://venturebeat.com/2020/12/26/ai-research-survey-finds-machine-learning-needs-a-culture-change/

от AI_NEWS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *