На фоне бума ИИ в разработке приложений компании сталкиваются со значительной проблемой маркировки данных, особенно когда дело доходит до маркировки изображений или другого медиаконтента, на котором они хотят тренировать алгоритмы глубокого обучения.

Вчера поставщик маркировки данных и инфраструктуры Scale AI запустил сервис под названием Scale Rapid, целью которого является решение этой проблемы путем маркировки образца данных в течение одного-трех часов. Пользователи могут просмотреть работу, чтобы убедиться, что маркировка выполняется правильно, при необходимости повторить инструкции по маркировке, а затем перейти к масштабированию ИИ, чтобы пометить остальную часть своего набора данных.

Это новейшая серия продуктов, выпущенных компанией Scale AI, которая стремится сохранить свое лидерство в сфере маркировки. В апреле компания привлекла 325 миллионов долларов, в результате чего ее общий капитал составил более 602 миллионов долларов. Scale AI заявляет, что ее годовой регулярный доход превысил 100 миллионов долларов, и ожидает двукратного роста в годовом исчислении. Его оценка в 7,3 миллиарда долларов превышает известную публичную стоимость большинства конкурентов, включая Labelbox, Hive, Snorkel AI, Mighty AI, Appen, Tasq.AI, Cloud Factory, Samsource и SupperAnnotate.

Рабочие нагрузки процесса маркировки данных

Некоторые компании могут похвастаться доступом к огромным армиям подрядчиков, готовых маркировать данные, но директор по технологиям Scale AI Брэд Портер сказал, что не видит никого, кто обещал бы такие же гарантии качества и быстрые предложения по масштабированию.

Компании, создающие приложения для искусственного интеллекта, обычно делают одно из двух, сказал г-н Портер. Они либо используют существующий набор данных, который уже был помечен, но, как правило, является устаревшим и с которым нелегко адаптироваться к новым приложениям, либо выбирают Mechanical Turk, Appen или другую стороннюю службу маркировки, которая нанимает отдельных лиц для маркировки данных для компании.

Конкуренты Scale AI могут предоставить инструмент для рабочего процесса маркировки, но может потребоваться несколько недель, чтобы настроить внутренний процесс, обеспечивающий ее точное выполнение таким образом, чтобы модели ИИ работали правильно. Как правило, компании, занимающиеся этой областью работы, должны сами нести ответственность за обеспечение качества маркировки данных. Однако Scale Rapid предназначен для обеспечения высококачественных результатов за счет полного управления процессом маркировки от начала до конца, заявил г-н Портер.

Как работает быстрое масштабирование?

Когда исследователь или разработчик машинного обучения (ML) начинает процесс маркировки набора данных, они пишут инструкции о том, как они хотят, чтобы данные были помечены. Инструкции могут быть предназначены для различных задач, таких как маркировка изображения, аннотирование аудиоклипа или определение того, является ли обзор контента положительным или отрицательным. Затем разработчик загружает от 10 до 50 примеров данных, чтобы убедиться, что разработчики этикеток правильно следуют инструкциям.

Разработчик Scale AI говорит, что он возвращает эти результаты через один-три часа и позволяет заказчику убедиться в соблюдении пороговых значений качества. Если нет, разработчик может отправить еще 10-50 образцов. Как только клиент подтвердит, что инструкции выполняются правильно, он сможет загрузить 500-1000 изображений и масштабировать их оттуда.

По словам Портера, у Scale AI есть источник рабочей силы, насчитывающий более 100 000 этикетировщиков. Компания определяет, требуются ли для выполнения задачи специалисты по маркировке, и помогает избежать недостатков, обнаруженных в некоторых популярных процессах маркировки, таких как голосование на основе консенсуса. При консенсусном голосовании задание по маркировке может быть отправлено пяти людям, и результат большинства принимается за действительную метку. Проблема в том, что большинство может ошибаться. Например, если задача требует, чтобы кто-то различал ворону и грача, четыре из пяти маркировщиков могут ошибочно принять грача за более известную ворону. Поэтому Scale AI привлекает так называемых “экспертов-корректировщиков». Затем он пытается автоматизировать процесс маркировки с помощью ML.

Scale AI сообщает о быстром внедрении своего продукта

Scale AI сообщает об успешном внедрении Scale Rapid в период частного бета-тестирования с ранним доступом: более 750 000 задач уже выполнены для клиентов, включая SpaceX, Cornell, Epson, Adobe, Square и TimberEye. (Scale AI недавно опубликовал тематическое исследование из TimberEye.)

Преимущество Scale AI, по словам г-на Портера, заключается в его происхождении и использовании данных в индустрии автономных транспортных средств. 24-летний основатель и генеральный директор компании Александр Ванг бросил Массачусетский технологический институт и начал создавать инструмент лидарной маркировки, соответствующий чрезвычайно строгим стандартам. По мере того как Scale AI расширялся для обслуживания других отраслей, он использовал свой опыт в области маркировки, предлагая компаниям соглашения об уровне обслуживания (SLA) для гарантии качества.

В прошлом году компания развернулась, чтобы помочь фирмам с потребностями в данных на каждом этапе жизненного цикла разработки ИИ — от аннотации данных до отладки данных, улучшения моделей и полностью управляемых сервисов. Scale AI в настоящее время охватывает несколько отраслей промышленности и обслуживает сотни клиентов, включая Brex, OpenAI, Армию США, SAP, Etsy и PayPal.

Источник: https://venturebeat.com/2021/10/07/scale-rapid-promises-quality-data-labeling-for-ai-in-as-little-as-an-hour/

от AI_NEWS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *