Биоинформатики Новосибирского государственного университета, ФИЦ «Институт цитологии и генетики СО РАН» и Университета имени Мартина Лютера (Германия) создали уникальный программный комплекс, который позволит повысить эффективность дорогостоящих геномных экспериментов.
Фото: DPA / TASS
Как объяснили исследователи, комплекс предназначен для поиска в ДНК совместно встречающихся мотивов — участков, на которые «садятся» белки, управляющие считыванием закодированной в молекуле ДНК информации. Расположенные рядом мотивы, как правило, функционируют вместе, поэтому выявление таких пар позволит ученым предсказывать взаимодействия белков уже на этапе анализа последовательности ДНК, а также исследовать роль этих взаимодействий в физиологических процессах.
Работа над программным комплексом заняла около двух лет. Существенный вклад внесли ученые НГУ и ИЦиГ: проект разработали и продолжают развивать сотрудники лаборатории компьютерной транскриптомики и эволюционной биоинформатики факультета естественных наук НГУ и ИЦиГ.
— Разработка позволяет получить гораздо более детальные сведения о регуляторной роли белка на основе эксперимента по массовому секвенированию его сайтов связывания. Если ранее для заданного белка, специфично регулирующего экспрессию генов, аналогичные подходы находили с высокой достоверностью его 3–5 партнеров-белков, то мы с помощью новой разработки находим 10–15,— рассказывает Виктор Левицкий.
Миллионы клеток организма синтезируют белки, которые непрерывно работают: переносят кислород, защищают от вторжения чужеродных агентов, сокращают и расслабляют мышечные волокна и выполняют массу других функций. Сведения о том, где и когда должны выполняться эти действия, зашифрованы в молекуле ДНК, причем информация записана при помощи всего четырех «букв» — нуклеотидов. Нуклеотиды объединяются в «слова» — гены, и каждый ген несет в себе сведения о белке, который может с него синтезироваться. Структуру и функцию клетки определяет уникальная комбинация белков, и какой ей быть, «решают» регуляторные элементы ДНК. Их структурные единицы: короткие последовательности «букв»-нуклеотидов, или мотивы, опознаются белками-регуляторами (транскрипционными факторами), что приводит к запуску или, наоборот, блокированию процесса считывания генетической информации.
Чтобы найти все мотивы определенного белка-регулятора в геноме, используется дорогостоящий эксперимент, который называется ChIP-seq. Важно, что белки-регуляторы никогда не работают в одиночку. Активность и специфичность каждого модулируются многочисленными партнерскими белками-регуляторами, и результат работы мотива зачастую определяется именно этими взаимодействиями. Поиск же потенциальных партнеров, как правило, сопряжен с проведением дополнительных ChIP-seq-экспериментов, что многократно повышает стоимость исследования. Именно эту проблему с успехом решает новый программный комплекс.
— Можно провести такую аналогию. Допустим, что регуляторные белки — это небольшая популяция людей, которых всего около двух тысяч. Известно, что небольшое число конкретных людей (10–20) вместе работают в одной комнате, а вам как исследователю нужно определить состав этой рабочей группы с помощью только слуха. Пусть вы приблизительно по голосу знаете несколько сотен людей, но проблема в том, что в популяции часто встречаются люди, которые могут работать очень тихо, так что практически вы их не слышите. Поэтому только с помощью слуха, без дополнительных данных от органов зрения, большая часть исследуемой рабочей группы остается вам неизвестной. Наша разработка — это добавка к аудиоинформации видео. В аналогии аудио — расположение мотивов (слов) в ДНК без перекрывания, видео — расположение мотивов с перекрыванием. До нашей разработки для анализа результатов одного эксперимента ChIP-seq было возможно выявление пар мотивов только без их перекрывания в ДНК. Таким образом, нами добавлено новое измерение для описания функциональности изучаемого объекта,— объясняет Виктор Левицкий.
Новосибирские ученые получили патент на свою программу, она готова к практическому применению. В последние несколько лет появились и продолжают пополняться открытые базы, насчитывающие уже несколько десятков тысяч ChIP-seq-экспериментов для разнообразных типов тканей, клеток и для разных белков-регуляторов. Алгоритм сибирских ученых может использоваться для поиска новых партнеров уже известных белков-регуляторов, ключевых для выполнения важных физиологических функций организма, например, иммунного ответа.
Работа выполнялась при поддержке Российского фонда фундаментальных исследований, проект № 18-29-13040, государственного бюджетного проекта № 0324-2019-0040.
По материалам статьи A single ChIP-seq dataset is sufficient for comprehensive analysis of motifs co-occurrence with MCOT package; Victor Levitsky, Elena Zemlyanskaya, Dmitry Oshchepkov, Olga Podkolodnaya, Elena Ignatieva, Ivo Grosse, Victoria Mironova, Tatyana Merkulova; журнал Nucleic Acids Research, ноябрь 2019 г.