На этой неделе ведущий исследователь ИИ Тимнит Гебру (Timnit Gebru) была уволена со своей должности в группе по этике ИИ в Google, как она утверждает, в отместку за то, что отправила коллегам электронное письмо с критикой управленческой практики компании. По сообщениям, точкой кипения стала статья, в которой Гебру поставила под сомнение целесообразность построения больших языковых моделей и провела исследование, для кого это выгодно.

Руководитель Google AI Джефф Дин (Jeff Dean) пояснил в электронном письме сотрудникам после ухода Гебру, что статья не соответствовала критериям Google для публикации, поскольку в ней отсутствовали ссылки на недавние исследования. Но, судя по всему, работа Гебру просто осветила давние проблемы с моделями, подобными тем, которые используются в Google, OpenAI, Facebook, Microsoft и других фирмах. В черновике, полученном VentureBeat, обсуждаются риски, связанные с развёртыванием крупных языковых моделей, в том числе следы их влияния на маргинализированные сообщества и их склонность к сохранению оскорбительных выражений, языка ненависти, микроагрессии, стереотипов и других бесчеловечных формулировок, унижающих определённые группы людей.

Действительно, работа Гебру основана на ряде недавних исследований, изучающих скрытые затраты на обучение и развёртывание крупномасштабных языковых моделей. Команда из Массачусетского университета в Амхерсте обнаружила, что количество энергии, необходимое для обучения и поиска конкретной модели, влечёт за собой выбросы примерно 285 000 кг углекислого газа, что почти в 5 раз превышает выхлопы среднего американского автомобиля за весь срок службы. Наука доказывает, что бедные группы населения с большей вероятностью столкнутся с серьёзными проблемами со здоровьем, связанными с окружающей средой: исследование Йельского университета подтвердило, что люди с низким доходом и группы, состоящие преимущественно из расовых меньшинств, подвергались значительно большему воздействию загрязнения воздуха по сравнению с жителями соседних зажиточных «белых» районов.

Утверждение Гебру и её коллег о том, что языковые модели могут нести токсичное содержание, также основано на обширных предшествующих исследованиях. В языковой сфере часть данных, используемых для обучения моделей, поступает от сообществ с широко распространёнными предрассудками по гендерным, расовым и религиозным признакам. Исследовательская компания ИИ OpenAI отмечает, что это может привести к размещению таких слов, как «неприличный» или «высосанный», рядом с женскими местоимениями, или «ислам» — рядом с такими словами, как «терроризм». Другие работы, например, опубликованные в апреле исследователями Intel, MIT и канадской ИИ инициативы CIFAR, выявили высокий уровень стереотипной предвзятости у самых популярных моделей, включая Google BERT и XLNet, OpenAI GPT-2 и Facebook RoBERTa. По данным Института международных исследований Миддлбери, эта предвзятость может быть использована злоумышленниками для разжигания раздора путём распространения дезинформации и откровенной лжи, которая «радикализирует людей, склоняя к насильственным ультраправым экстремистским идеологиям».

В своём электронном письме Дин обвинил Гебру и ее соавторов в игнорировании достижений, которые показали большую эффективность в обучении и могут снизить воздействие углерода. Он также сообщил, что в этой работе не учтены недавние исследования по уменьшению предвзятости языковой модели. Но этот аргумент кажется неискренним. В статье, опубликованной ранее в этом году, Google подготовил обширную языковую модель — GShard, — используя 2048 своих модулей тензорной обработки (TPU) третьего поколения, микросхемы, специально разработанные для рабочих нагрузок обучения ИИ. По одной из оценок, мощность одного TPU составляет около 200 Вт на чип, следовательно, GShard требовалось огромное количество энергии для обучения. Что касается предвзятости, OpenAI, сделавшая GPT-3 доступной через API ранее в этом году, только начала экспериментировать с мерами предосторожности, включая «фильтры токсичности», чтобы ограничить формирование оскорбительного языка.

Гебру и её коллеги обоснованно предполагают, что большие языковые модели могут ввести в заблуждение исследователей ИИ и побудить широкую публику принять их текст за значимый. (Исследования показывают, что популярные тесты естественного языка плохо измеряют общие знания моделей искусственного интеллекта.) «Если большая языковая модель … может достаточно хорошо манипулировать лингвистической формой, чтобы обмануть её через тесты, требующие понимания языка, смогли ли мы узнать что-нибудь ценное о том, как развить осмысление машинного языка, или нас вели по ложному пути? — говорится в документе. — Мы выступаем за такой подход к исследованиям, который сосредотачивает внимание на возможных способах воздействия полученных технологий на людей».

Ни для кого не секрет, что коммерческие интересы Google противоречат изложенным в документе точкам зрения. Многие из крупных языковых моделей, которые фирма разрабатывает, ориентированы на клиентов, в том числе Cloud Translation API и Natural Language API. Компания часто рекламирует свою работу в области этики ИИ, поэтому до сих пор, хотя и неохотно, терпела внутренние исследования, критикующие её подходы. Увольнение Гебру означает сдвиг в мышлении руководства Google, особенно в свете его репрессивных мер по борьбе с инакомыслием — в последнее время в форме незаконного шпионажа за сотрудниками перед их увольнением. В любом случае это означает, что топ-менеджмент Google более не готов открыто обсуждать критические вопросы, связанные с ИИ и машинным обучением. А учитывая их огромное влияние в исследовательском сообществе, последствия могут быть весьма серьезными.

Источник: https://venturebeat.com/2020/12/04/ai-weekly-in-firing-timnit-gebru-google-puts-commercial-interests-ahead-of-ethics/

от AI_NEWS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *