Вирусные зоонозные заболевания оказали серьезное влияние на здоровье человека за последнее столетие. Яркими примерами являются испанский грипп 1918 года, СПИД, атипичная пневмония, лихорадка Эбола и нынешний коронавирус. По оценкам, существует 3 х 105 видов вирусов млекопитающих, от которых могут возникать инфекционные заболевания человека. В настоящее время из них известна только малая часть.
Фото: Science Photo Library / Getty Images
Для улучшения прогнозирования и предотвращения будущих эпидемий надо следить за разнообразием вирусов. Этим занимаются международные консорциумы и сотни исследовательских лабораторий.
Пионерские работы по расширению вирома Земли выявили тысячи новых вирусов, при этом скорость обнаружения вирусов растет экспоненциально и во многом обусловлена увеличением доступности высокопроизводительного секвенирования. Но анализ последовательностей и прогнозирование остаются дорогостоящими.
Петабазы данных секвенирования находятся в свободном доступе в общедоступных ресурсах, таких как Sequence Read Archive (SRA). Общедоступные базы данных содержат огромную коллекцию вирусов, но их очень сложно изучать, потому что нет эффективных методов поиска в этой огромной «библиотеке». Часто вирусные нуклеиновые кислоты в этих базах обнаруживаются учеными случайно, в ходе других исследований. Чтобы можно было обнаруживать именно вирусы, международная команда ученых вместе с Центром биоинформатики и алгоритмической биотехнологии СПБГУ, Институтом Пастера, Университетом Британской Колумбии, Калифорнийским университетом в Беркли, Гейдельбергским институтом теоретических исследований и других исследователей по всему миру разработали инфраструктуру облачных вычислений Serratus.
Serratus — это бесплатная инфраструктура облачных вычислений с открытым исходным кодом, использующая 5,7 млн экологически разнообразных библиотек секвенирования, или 10,2 петабайта данных. Это поисковое пространство охватывает данные, собранные за 13 лет со всех континентов и океанов и всех царств жизни.
Поиск планетарного вирома
Serratus может выявлять библиотеки, содержащих известные или близкородственные вирусы. Ученые провели поиск в 5,7 млн биологически разнообразных образцов ключевого гена РНК-зависимой РНК-полимеразы и идентифицировали более 130 тыс. новых РНК-содержащих вирусы, тем самым увеличив количество известных видов примерно на порядок. Они также охарактеризовали новые вирусы, связанные с коронавирусами, вирусом гепатита «дельта», огромными фагами и проанализировали их резервуары в окружающей среде.
С момента завершения создания генома человека базы данных секвенирования ДНК растут очень быстро. Serratus обеспечивает быстрый и целенаправленный доступ к геномным последовательностям. Эта работа и дальнейшие расширения геномики в масштабе петабаза формируют новую эру в вычислительной биологии, позволяя открывать обширные гены, наблюдать за патогенами и проводить пангеномный эволюционный анализ. Оптимальное преобразование таких массивных наборов данных в значимые биомедицинские достижения требует свободного и открытого сотрудничества между учеными. Нынешняя пандемия подчеркивает необходимость оперативного, неограниченного и прозрачного обмена данными.
Инновационные области, такие как высокопроизводительная виромика, могут использовать обширные наборы вирусных последовательностей для информирования политик, которые предсказывают и смягчают возникающие пандемии. Сочетание экоинформатики с метаданными о вирусах, хостах и геовременными данными предлагает доказательство концепции глобальной сети наблюдения за патогенами, возникающей как побочный продукт централизованного и открытого обмена данными. Рост человеческой популяции и вторжение в места обитания животных сближают все больше видов, что приводит к увеличению уровня зоонозов и ускоряет массовое вымирание в антропоцене. Serratus позволяет человечеству вести поиск всего генетического разнообразия нашей планеты. Сегодня инвестиции в сбор и хранение биологически разнообразных образцов с упором на географически недопредставленные регионы — это одна из важных задач, если не для сохранения исчезающих видов.
РНК-зависимая РНК-полимераза в SRA. Отпечаток RdRP представляет собой белковую последовательность
Использованы материалы, опубликованные в журнале Nature