Исследователи, связанные с Nvidia и Harvard today, подробно описали AtacWorks — инструментарий машинного обучения, предназначенный для снижения затрат и времени, необходимых для редких и трудоемких экспериментов на клеточном уровне. В исследовании, опубликованном в журнале Nature Communications, соавторы показали, что AtacWorks может выполнять анализ всего генома всего за полчаса — по сравнению с несколькими часами, которые занимают традиционные методы.

Большинство клеток в организме несут полную копию ДНК человека, с миллиардами пар оснований, втиснутых в ядро. Но отдельная клетка извлекает только тот подраздел генетических компонентов, который ей необходим для функционирования, причем клетки различных органов и систем, таких, как печень, кровь или кожа, используют разные гены. Участки ДНК, определяющие функцию клетки, более или менее легко доступны, в то время как остальные защищены белками.

AtacWorks, которая представлена на NGC-концентраторе Nvidia для GPU-оптимизированного программного обеспечения, работает с ATAC-seq, методом поиска открытых областей в геноме клеток, впервые разработанным гарвардским профессором Джейсоном Буэнростро (Jason Buenrostro), одним из соавторов статьи. ATAC-seq измеряет интенсивность сигнала в каждой точке генома. Пики в сигнале соответствуют областям с ДНК таким образом, что чем меньше клеток доступно, тем больше шума в данных, что затрудняет идентификацию доступных областей ДНК.

ATAC-seq обычно требует десятков тысяч образцов, чтобы получить чистый сигнал. По словам соавторов, применение AtacWorks дает те же качественные результаты только с десятками клеток.

AtacWorks обучалась на меченых парах совпадающих наборов данных ATAC-seq, один из которых был качественным, а другой — зашумленным. Просчитывая уменьшенный объем данных, модель научилась предсказывать точную высококачественную версию и идентифицировать пики в сигнале. Используя AtacWorks, исследователи обнаружили, что они могут обнаружить доступный хроматин, комплекс ДНК и белка, основной функцией которого является упаковка длинных молекул в более компактные структуры, в шумной последовательности из 1 миллиона считываний почти так же, как традиционные методы делали с чистым набором данных из 50 миллионов считываний.

AtacWorks может позволить ученым проводить исследования с меньшим количеством клеток, снижая затраты на сбор образцов и секвенирование. Анализ тоже может стать быстрее и дешевле. Работая на графических процессорах Nvidia Tensor Core, AtacWorks занимала менее 30 минут для вывода на геном, процесс, который занял бы 15 часов в системе с 32 ядрами процессора.

В статье Nature Communications гарвардские исследователи применили AtacWorks к набору данных стволовых клеток, которые производят красные и белые кровяные клетки — редкие подтипы, которые не могут быть изучены традиционными методами. Имея набор образцов всего из 50 клеток, команда смогла использовать AtacWorks для идентификации различных областей ДНК, связанных с клетками, которые развиваются в белые кровяные клетки, и отдельных последовательностей, которые коррелируют с красными кровяными клетками.

“С очень редкими типами клеток невозможно изучить различия в их ДНК с помощью существующих методов, — говорит исследователь Nvidia Авантика Лал (Avantika Lal), первый автор этой статьи. — AtacWorks поможет не только снизить стоимость сбора данных о доступности хроматина, но и открыть новые возможности в области диагностики и разработки лекарств”.

Источник: https://venturebeat.com/2021/03/08/nvidia-and-harvard-develop-ai-tool-that-speeds-up-genome-analysis/

от AI_NEWS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *