В конце 2019 года исследователи, связанные с Facebook, Нью-Йоркским университетом (NYU), Вашингтонским университетом и DeepMind, предложили SuperGLUE, новый бенчмарк для ИИ, предназначенный для обобщения прогресса исследований по разнообразному набору языковых задач. Основываясь на тесте GLUE, который был представлен годом ранее, SuperGLUE включает в себя сложные программы понимания языка, улучшенные ресурсы и общедоступную таблицу лидеров.

Когда был представлен SuperGLUE, разрыв между самой эффективной моделью и результатами человека в таблице лидеров был почти 20 баллов. Но по состоянию на начало января две модели — одна от Microsoft под названием DeBERTa, а вторая от Google под названием T5 + Meena — превзошли человеческие стандарты, став первыми, кто сделал это.

Сэм Боуман (Sam Bowman), доцент Центра науки о данных Нью-Йоркского университета, отметил, что это достижение отражает инновации в машинном обучении, в том числе обучение с самоконтролем, когда модели учатся на немаркированных наборах данных с алгоритмами для адаптации понимания к целевым задачам. «Эти датасеты отражают одни из самых сложных наборов задач для контролируемого понимания языка, которые были бесплатно доступны два года назад, — сказал он. — Нет оснований полагать, что SuperGLUE сможет обнаружить дальнейший прогресс в обработке естественного языка, по крайней мере, за пределами небольшого оставшегося запаса».

Но SuperGLUE не является ни идеальным, ни полным тестом на знание человеческого языка. В сообщении в блоге команда Microsoft, стоящая за DeBERTa, сама указала, что их модель «ни в коем случае» не достигает человеческого уровня понимания естественного языка. Они говорят, что для этого потребуются научные открытия, а также новые критерии для оценивания моделей и их эффектов.

SuperGLUE

Как писали исследователи в статье, посвящённой SuperGLUE, их бенчмарк предназначен для простой и комплексной оценки достижений в области технологий общего понимания английского языка. Он включает восемь задач, взятых из существующих данных и сопровождаемых показателем производительности, а также набором инструментов анализа.

Задачи:

  • Логические вопросы (BoolQ) требуют, чтобы модели отвечали на вопрос о коротком отрывке из статьи в Википедии, который содержит ответ. Вопросы поступают от пользователей Google, которые отправляют их через поисковик.
  • CommitmentBank (CB) ставит перед моделями задачу идентифицировать гипотезы, содержащиеся в текстовых отрывках из источников, включая Wall Street Journal, и определять, верна ли гипотеза.
  • Выбор правдоподобных альтернатив (COPA) представляет собой исходное предложение по темам из блогов и энциклопедию, связанную с фотографией, из которой модели должны определять причину или следствие из двух возможных вариантов.
  • Понимание чтения несколькими предложениями (MultiRC) — это задача «вопрос-ответ», где каждый пример состоит из контекстного абзаца, вопроса об этом абзаце и списка возможных ответов. Модель должна предсказать, какие ответы верны, а какие — ложны.
  • Понимание прочитанного с помощью датасета умозаключений (ReCoRD) испытывает модели на предсказывание замаскированных слов и фраз из списка вариантов в отрывках из CNN и Daily Mail, где одни и те же слова или фразы могут быть выражены с использованием нескольких различных форм, все из которых считаются правильными.
  • Распознавание логического следования в текстах (RTE) заставляет модели естественного языка идентифицировать моменты, когда истинность одного отрывка текста следует из другого.
  • Слово-в-контексте (WiC) предоставляет модели два текстовых фрагмента и многозначное слово и требует, чтобы они определяли, используется ли слово с одинаковым смыслом в обоих предложениях.
  • Проблема виноградной схемы (WSC) — это задача, в которой модели, получившие отрывки из художественных книг, должны ответить на вопросы с несколькими вариантами ответов о предшествующих двусмысленных местоимениях. Она разработана, чтобы улучшить тест Тьюринга.

SuperGLUE также пытается измерить гендерную предвзятость в моделях с использованием Winogender Schemas, пар предложений, которые различаются только полом одного местоимения в предложении. Однако исследователи отмечают, что у этого показателя есть ограничения в том, что он предлагает только позитивную прогнозируемую оценку: хотя низкая оценка смещения является чистым доказательством того, что модель демонстрирует гендерную предвзятость, хорошая оценка не означает, что модель беспристрастна. Более того, она не включает все формы гендерных или социальных предубеждений, что делает ее оценку весьма приблизиительной.

Чтобы установить базовые показатели производительности человека, исследователи использовали существующую литературу по WiC, MultiRC, RTE и ReCoRD и наняли аннотаторов-краудоркеров через платформу Amazon Mechanical Turk. Каждый работник, получающий в среднем 23,75 доллара (1800 рублей) в час, прошёл короткую фазу обучения, прежде чем делать аннотации до 30 образцов выбранных наборов тестов, используя инструкции и страницу часто задаваемых вопросов.

Архитектурные улучшения

Команда Google ещё не описывала улучшения, которые привели к рекордной производительности её модели на SuperGLUE, но исследователи Microsoft, стоящие за DeBERTa, подробно рассказали о своей работе в посте блога. DeBERTa не нова — она была открыта в прошлом году, но исследователи говорят, что обучили более крупную версию с 1,5 миллиардами параметров (то есть внутренними переменными, которые модель использует для прогнозирования). Она будет выпущена с открытым исходным кодом и интегрирована в следующую версию модели представления естественного языка Microsoft Turing, которая поддерживает такие продукты, как Bing, Office, Dynamics и Azure Cognitive Services.

DeBERTa предварительно обучается с помощью моделирования языка с маской (MLM), задачи заполнения пустого поля, при которой модель обучается использовать слова, окружающие замаскированный «токен», чтобы предсказать, каким должно быть замаскированное слово. DeBERTa использует как содержание, так и информацию о положении контекстных слов для MLM, так что она может распознавать, например, «магазин» и «торговый центр» в предложении «новый магазин, открытый рядом с новым торговым центром», играющие разные синтаксические роли.

В отличие от некоторых других моделей, DeBERTa учитывает абсолютные позиции слов в процессе языкового моделирования. Более того, она вычисляет параметры в модели, которые преобразуют входные данные и измеряют силу зависимости ‘слово-слово’ на основе относительного положения слов. Например, DeBERTa поймёт, что зависимость между словами «глубокое» и «обучение» намного сильнее, когда они встречаются рядом друг с другом, чем когда они встречаются в разных фразах.

DeBERTa также извлекает выгоду из вредного обучения, применяя техники, которые используют вредные примеры, полученные из небольших изменений, внесённых в обучающие данные. Эти примеры вводятся в модель в процессе обучения, улучшая её обобщаемость.

Исследователи Microsoft надеются в следующий раз научить DeBERTa обобщать новые задачи подзадач или базовые навыки решения проблем, – эта концепция известна как композиционное обобщение. Одним из путей продвижения может быть более явное включение так называемых композиционных структур, что может повлечь за собой объединение ИИ с символическим мышлением — другими словами, манипулирование символами и выражениями в соответствии с математическими и логическими правилами.

«Превосхождение человека моделью DeBERTa на SuperGLUE означает важную веху на пути к общему ИИ, — пишут исследователи Microsoft. — [Но в отличие от DeBERTa] люди чрезвычайно хорошо умеют использовать знания, полученные при выполнении различных задач, для решения новой проблемы без каких-либо или незначительных демонстраций конкретной задачи».

Новые бенчмарки

По словам Боумана, преемника SuperGLUE не предвидится — по крайней мере, в ближайшем будущем. Но в исследовательском сообществе ИИ уверены, что будущие тесты, особенно в языковой сфере, должны учитывать более широкие этические, технические и социальные проблемы, чтобы быть полезными.

Например, ряд исследований показывает, что популярные тесты плохо справляются с оценкой реальной производительности ИИ. В одном недавнем отчёте было обнаружено, что 60-70% ответов, даваемых моделями обработки естественного языка, были встроены где-то в тестовых обучающих наборах, что указывает на то, что модели обычно просто запоминали ответы. Другое исследование — метаанализ более 3000 статей об ИИ — обнаружило, что показатели, используемые для бенчмарка моделей ИИ и машинного обучения, как правило, непоследовательны, отслеживаются нерегулярно и не особенно информативны.

Частично проблема связана с тем фактом, что языковые модели, такие как OpenAI GPT-3, Google T5 + Meena и Microsoft DeBERTa, учатся писать человеческий текст, усваивая примеры из общедоступной сети. Опираясь на такие источники, как электронные книги, Википедия и платформы социальных сетей, например Reddit, они делают выводы для полных предложений и даже целых абзацев.

В результате языковые модели часто усиливают предубеждения, закодированные в этих общедоступных данных; часть обучающих материалов нередко поступает из сообществ с широко распространёнными гендерными, расовыми и религиозными предрассудками. Исследовательская компания ИИ OpenAI отмечает, что это может привести к размещению таких слов, как «непослушный» или «высосанный» рядом с женскими местоимениями, и «ислам» рядом с такими словами, как «терроризм». Другие работы, такие как исследование, опубликованное в апреле от Intel, MIT и канадской ИИ инициативы CIFAR, выявили высокий уровень стереотипной предвзятости некоторых из самых популярных моделей, включая Google BERT и XLNet, OpenAI GPT-2 и Facebook RoBERTa. По данным Института международных исследований Миддлбери, это смещение может быть использовано злоумышленниками для разжигания разногласий путём распространения дезинформации и откровенной лжи, которая «радикализирует людей в сторону насильственных ультраправых экстремистских идеологий и поведения».

Большинство существующих языковых тестов не учитывают этого. Мотивированные результатами, полученными за два года, прошедших с момента внедрения SuperGLUE, разработчики, возможно, внесут поправки в будущие тесты.

Источник: https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

от AI_NEWS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *