Исследователи Массачусетского технологического института создали инструмент, который автоматически удаляет “грязные данные” — дубликаты, пропущенные значения, опечатки и несоответствия, мешающие работе аналитиков данных, инженеров по обработке данных и ученых. Система, называемая PClean, стала последней в серии предметных вероятностных языков программирования, написанных исследователями в проекте вероятностных вычислений, которые направлены на упрощение и автоматизацию разработки приложений ИИ (и включают в себя один язык для 3D-восприятия с помощью обратной графики и другой — для моделирования временных рядов и баз данных).

Согласно опросам, проведенным Anaconda и Figure Eight, очистка данных может занимать четверть времени специалиста по их обработке. Автоматизация этой задачи сложна, поскольку различные наборы данных требуют различных типов очистки, и часто требуется здравое суждение об объектах в мире (например, в каком из нескольких городов, называемых “Беверли-Хиллз”, кто-то живет). PClean предоставляет общие модели здравого смысла для такого рода суждений, которые могут быть настроены для конкретных баз данных и типов ошибок.

PClean использует основанный на знаниях подход для автоматизации процесса очистки данных: пользователи кодируют фоновые знания о базе данных и о том, какие проблемы могут возникнуть. Возьмем, к примеру, проблему очистки имен граждан в базе данных списков квартир. Что, если кто-то сказал, что живет в Беверли-Хиллз, но оставил колонку штата пустой? Хотя есть хорошо известный Беверли-Хиллз в Калифорнии, есть такие города и во Флориде, Миссури и Техасе… и есть район Балтимора, известный как Беверли-Хиллз. Как вы можете знать, где человек живет? Вот тут-то и поможет скриптовый язык PClean. Пользователи могут предоставить PClean фоновые знания о домене и о том, как данные могут быть повреждены. PClean объединяет эти знания с помощью вероятностных рассуждений здравого смысла, чтобы найти ответ. Например, учитывая дополнительные знания о типичной арендной плате, PClean делает правильный вывод, что Беверли-Хиллз находится в Калифорнии из-за высокой стоимости аренды там, где живет респондент.

Алекс Лью (Alex Lew), ведущий автор статьи и аспирант кафедры электротехники и компьютерных наук (EECS), говорит, что он очень рад тому, что PClean дает возможность заручиться помощью компьютеров точно так же, как люди обращаются за помощью друг к другу. «Когда я обращаюсь к другу за помощью, это зачастую проще, чем обратиться к компьютеру. Это потому, что в современных доминирующих языках программирования я должен давать пошаговые инструкции, которые не могут предполагать, что компьютер имеет какие-либо знания о мире или задаче — или даже просто способность рассуждать здраво. С человеком я могу предположить все эти вещи, — отмечает он. — PClean — это шаг к сокращению этого разрыва. Он позволяет мне рассказать компьютеру, что я знаю о проблеме, кодируя те же самые фоновые знания, которые я бы объяснил человеку, помогающему мне очистить мои данные. Я также могу передать PClean подсказки, советы и хитрости, которые я уже обнаружил для более быстрого решения этой задачи”.

Соавторами разработки стали Моника Агравал (Monica Agrawal), аспирантка EECS; Дэвид Сонтаг (David Sontag), доцент EECS; и Викаш К. Мансингка (Vikash K. Mansinghka), главный научный сотрудник Отдела мозга и когнитивных наук.

Какие инновации позволяют системе работать?

Идея о том, что вероятностная очистка, основанная на декларативном, генеративном знании, потенциально может обеспечить гораздо большую точность, чем машинное обучение, была ранее предложена в статье 2003 года Ханны Пасулы и других ученых из лаборатории Стюарта Рассела в Калифорнийском университете в Беркли. “Обеспечение качества данных — огромная проблема в реальном мире, и почти все существующие решения являются разовыми, дорогостоящими и подверженными ошибкам, -сообщает г-н Рассел, профессор компьютерных наук Калифорнийского университета в Беркли. — PClean — это первое масштабируемое, хорошо спроектированное решение общего назначения, основанное на генеративном моделировании данных, которое должно быть правильным. Результаты говорят сами за себя”. Соавтор Агравал добавляет, что “существующие методы очистки данных более специализированы, что может быть более удобным для пользователя, но за счет того, что они довольно ограничены. Кроме того, мы обнаружили, что PClean может масштабироваться до очень больших наборов данных, которые имеют нереалистичное время выполнения в существующих системах”.

PClean опирается на недавний прогресс в вероятностном программировании, включая новую модель программирования ИИ, и построен в рамках проекта MIT по вероятностным вычислениям, что значительно облегчает применение реалистичных моделей человеческого знания для интерпретации данных. Метод PClean основан на байесовском рассуждении, подходе к имеющимся данным, который взвешивает альтернативные объяснения неоднозначных данных путем применения вероятностей, основанных на предварительных знаниях. “Способность принимать такие неопределенные решения, когда мы хотим сказать компьютеру, какие вещи он, вероятно, увидит, и заставить компьютер автоматически использовать это, чтобы выяснить, какой, вероятно, правильный ответ является центральной частью вероятностного программирования”, — говорит г-н Лью.

PClean — это первая байесовская система очистки данных, которая может сочетать опыт предметной области со здравым смыслом и автоматически очищать базы данных из миллионов записей. PClean достигает этого масштаба с помощью трех инноваций. Во-первых, скриптовый язык PClean позволяет пользователям кодировать то, что они знают. Это дает точные модели даже для сложных баз данных. Во-вторых, алгоритм вывода PClean использует двухфазный подход, основанный на обработке записей по одной за раз, чтобы сделать обоснованные предположения о том, как их очистить, а затем пересмотреть свои суждения, чтобы исправить ошибки. Это дает надежные и точные результаты логического вывода. В-третьих, PClean предоставляет пользовательский компилятор, который генерирует код быстрого вывода. Это позволяет PClean работать с миллионными базами данных с большей скоростью, чем несколько конкурирующих подходов. «Пользователи PClean могут дать ему подсказки о том, как более эффективно рассуждать о своей базе данных и настраивать ее производительность — в отличие от предыдущих подходов вероятностного программирования к очистке данных, которые опирались в основном на общие алгоритмы вывода, которые часто были слишком медленными или неточными», — говорит г-н Мансингка.

Как и во всех вероятностных программах, строк кода, необходимых для работы инструмента, намного меньше, чем альтернативных современных вариантов: программам PClean требуется всего около 50 строк кода, чтобы превзойти бенчмарки с точки зрения точности и времени выполнения. Для сравнения, простая игра snake cellphone требует в два раза больше строк кода для запуска, а Minecraft поставляется с более чем 1 миллионом строк кода.

В своей статье, только что представленной на конференции Общества искусственного интеллекта и статистики 2021 года, авторы показывают способность PClean масштабироваться до наборов данных, содержащих миллионы записей, используя PClean для обнаружения ошибок и вменения пропущенных значений в 2,2 миллиона строк Medicare Physician Compare National dataset. Работая всего семь с половиной часов, PClean обнаружил более 8000 ошибок. Затем авторы вручную проверили (через поиск на сайтах больниц и страницах врачей LinkedIn), что для более чем 96 процентов из них предложенное исправление PClean было правильным.

Поскольку PClean основан на байесовской вероятности, он также может давать калиброванные оценки своей неопределенности. “Он может поддерживать несколько гипотез — давать вам градуированные суждения, а не просто ответы «да/нет». Это создает доверие и помогает пользователям переопределять PClean, когда это необходимо. Например, вы можете посмотреть на суждение, в котором PClean был неуверен, и сказать ему правильный ответ. Затем он может обновить остальные свои суждения в свете ваших отзывов, — подчеркивает г-н Мансингка. — Мы думаем, что есть много потенциальной ценности в таком интерактивном процессе, который переплетает человеческое суждение с машинным. Мы рассматриваем PClean как ранний пример нового типа системы ИИ, которая может рассказать больше о том, что люди знают, сообщать, когда это неопределенно, рассуждать и взаимодействовать с людьми более полезными, человекоподобными способами”.

Дэвид Пфау (David Pfau), старший научный сотрудник DeepMind, отметил в твиттере , что PClean соответствует производственной необходимости: “Если учесть, что у подавляющего большинства бизнес-данных там не изображения собак, но записи в реляционных базах данных и таблицах, это удивительно, что подобные вещи имеют меньше успеха, что глубокое обучение”.

Выгоды, риски и регулирование

PClean делает дешевле и проще объединение беспорядочных, противоречивых баз данных в чистые записи без огромных инвестиций в человеческие и программные системы, на которые в настоящее время полагаются компании, ориентированные на данные. Это имеет потенциальные социальные выгоды — но также и риски, среди которых PClean может сделать более дешевым и легким вторжение в частную жизнь людей и, возможно, даже деанонимизировать их, объединив неполную информацию из нескольких открытых источников.

«В конечном счете нам нужны гораздо более эффективная защита данных, искусственный интеллект и регулирование конфиденциальности, чтобы смягчить эти виды вреда», — говорит Мансингка. Лью добавляет: «По сравнению с подходами машинного обучения к очистке данных, PClean может позволить более тонкий регуляторный контроль. Например, PClean может сказать нам не только то, что он объединил две записи как относящиеся к одному и тому же человеку, но и почему он это сделал — и я могу прийти к своему собственному суждению о том, согласен ли я. Я даже могу приказать PClean только рассмотреть определенные причины слияния двух записей”. К сожалению, говорят исследователи, проблемы конфиденциальности сохраняются независимо от того, насколько справедливо очищается набор данных.

Мансингка и Лью рады помочь людям в решении социально полезных задач. К ним обратились люди, которые хотят использовать PClean для улучшения качества данных для журналистики и гуманитарных приложений, таких как антикоррупционный мониторинг и консолидация донорских записей, представленных в государственные избирательные комиссии. Их соавтор Агравал надеется, что PClean освободит время ученых данных, “чтобы сосредоточиться на проблемах, о которых они заботятся, а не на очистке данных. Ранние отзывы и энтузиазм вокруг PClean предполагают, что это возможно, и мы рады помочь».

Источник: https://news.mit.edu/2021/system-cleans-messy-data-tables-automatically-0511

от AI_NEWS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *