Разработанный в Петербурге геномный ассемблер SPAdes открыл ученым доступ к "темной материи жизни".
"В организме человека клеток бактерий в десять раз больше, чем его собственных",— говорит Павел Певзнер, профессор Калифорнийского университета в Сан-Диего. Созданная им в России лаборатория алгоритмической биологии СПбАУ РАН выпустила в свет геномный ассемблер SPAdes, ставший мировой сенсацией. С его помощью ученые получили доступ к информации о "темной материи жизни" — микроорганизмах, чей геном до недавнего времени не мог быть изучен.
Бактерии — неотъемлемая часть экосистемы человеческого организма. Во многом именно они определяют состояние нашего здоровья, управляют настроением и даже аппетитом. В 2000 году мировая наука отпраздновала завершение грандиозного проекта --расшифровку генома человека. Проект длился 13 лет и стоил $3 млрд. Ученые ожидали, что информация о геноме откроет путь к созданию новых лекарств, обеспечит прорыв в здравоохранении. "Здоровье человека определяется не только его собственным геномом, но и геномом организмов, которые с ним сосуществуют",— уточняет Певзнер. Сегодня задача ученых — создать коллективный портрет генома человека и его микроскопических сожителей. Однако сделать это не так просто.
До недавнего времени большая часть бактерий была недоступна для исследований. "Для того чтобы прочитать геном, требовался по крайней мере миллион клеток",— говорит Певзнер. Однако бактерия — одноклеточный организм. Проблему можно было решить выращиванием клеток. Но для львиной доли бактерий делать это наука не умеет. А культивированию в лаборатории поддается лишь около 1% бактерий.
Певзнер называет эти бактерии "темной материей жизни" по аналогии с темной материей в астрономии и космологии, с чьей помощью физики пытаются объяснить фундаментальные процессы во Вселенной. Термин dark matter of life закрепился в научной прессе, а лаборатории университетов по всему миру приступили к поиску технологий, которые бы позволили раскрыть тайну генома одноклеточных.
Десять лет назад Роджер Ласкин, профессор Института Крейга Вентера, открыл способ "размножать" молекулы ДНК, полученные из единичной клетки в количестве, достаточном для чтения генома. Однако обработка данных оставалась сложной задачей. Лишь осенью 2011 года Певзнер и Ласкин продемонстрировали алгоритм "сборки" этих сведений, решив задачу чтения генома по единственной клетке. Научная пресса назвала это прорывом. "Ученые получили доступ к геному тысяч видов бактерий, которые раньше были недосягаемы, включая микроорганизмы, способные производить биотопливо, антибиотики, новые лекарства, а также микробов, влияющих на жизнедеятельность человеческого организма",— писал журнал Nature Biotechnology, где впервые было опубликовано исследование. В том же году группа Певзнера из Калифорнийского университета разработала программу E+V-SC, впервые позволившую собрать из кусочков секвенированного генома единичной клетки его полную версию.
Годом ранее Министерство образования и науки России объявило об открытии проекта "Мегагрант". Он ставил своей целью привлечь ведущих мировых ученых. Объем финансирования программы стал рекордным: гранты до 150 млн руб. выделили для 40 ученых, которые должны были организовать в России лаборатории мирового уровня. Одним из победителей стал Певзнер, открывший в Санкт-Петербурге на базе СПбАУ РАН лабораторию алгоритмической биологии, она занялась в том числе "софтверной" стороной развития проекта.
"Соревнование идет колоссальное,— говорит Певзнер.— Секвенирование генома из единичной клетки — одна из самых быстроразвивающихся областей в геномике. Здесь, например, находится ответ на вопрос, как изучать начальные стадии рака. Ведь если для исследования требуется миллион клеток, то ни первую, ни тысячную клетку вам изучить не удастся".
Задача чтения генома состоит из двух частей: секвенирование — извлечение кусочков ДНК и затем сборка в единую конструкцию. ДНК человека состоит из 3 млрд элементов, называемых "буквами". "Проблема в том,— объясняет Певзнер,— что современные машины не могут извлечь всю строку целиком. Они "режут" ДНК на кусочки по 200-300 "букв" и читают их. Затем нужно собрать эти сотни миллионов кусочков в единую строку — по фрагментам восстановить геном". Часть данных при этом оказывается поврежденной, часть дублируется, а часть отсутствует вовсе. "Представьте, что вы взяли пачку газет, разрезали на миллион кусков длиной в несколько слов, часть сожгли, часть испортили, перемешали. А затем из всего этого вам нужно сложить газету обратно",— говорит Певзнер. Проблемой также является то, что в отличие от газет в рассматриваемых "строчках" отсутствует контекст. И они состоят из четырех букв, что делает их до невозможности однообразными.
Для создания алгоритма, решающего эту проблему, Певзнер использовал разные алгоритмические подходы. Среди них как классические теоремы Эйлера, так и современные идеи анализа графов. "Журнал Science писал, что это замена одной безнадежной идеи на другую. Но я не забросил нашу гипотезу. И оказался прав",— рассказывает Певзнер.
Идеи Певзнера воплотились в алгоритме, который стала разрабатывать петербургская лаборатория. Менее чем за год в ней появился SPAdes (St. Petersburg Genome Assembler), ставший наиболее эффективным инструментом чтения генома "темной материи жизни". В мае этого года SPAdes победил в конкурсе GAGE-B — The Genome Assembly Gold-Standard Evaluations, теста геномных ассемблеров, применяемых для исследования бактерий, оценивающего точность наиболее популярных инструментов. Его включают в свой инструментарий университеты (например, Broad Institute) и компании, в частности DNAnexus — "облачная" платформа для генетических исследований.
"Оказалось, что SPAdes хорош не только для исследования генома бактерий,— говорит Алла Лапидус, директор по геномике лаборатории алгоритмической биологии, где был создан SPAdes.— Например, он сможет решать задачи в криминалистике, где ДНК-анализ сталкивается с проблемами "грязных" материалов. Еще одна характерная его черта — высокая скорость работы. Это пригодится в ситуациях, где счет идет на часы, например, при вспышках эпидемий и на коммерческих платформах, когда сокращение времени равносильно экономическому эффекту".
"SPAdes адресован рынкам с гигантской капитализацией, это исследование рака на ранней стадии, изучение бактериального мира, создание новых лекарств. Когда мы поняли, что у программы будет много пользователей, мы сразу решили выпускать ее не в виде "кода", а именно как рыночный продукт, надежный, удобный, с хорошим интерфейсом,— говорит Певзнер.— Мы надеемся, что с его помощью наука подойдет к раскрытию полного генома "экосистемы человека". Приоткрыть окно в этот мир. Теперь возможно".