Что такое гликоинформатика
Российские ученые совершили революцию в исследовании углеводов
Биологическая роль углеводов — одного из самых химически разнообразных классов биомакромолекул — была осознана позже, чем роль белков и нуклеиновых кислот. В XXI веке с развитием современных компьютерных методов научное сообщество продемонстрировало взрывной рост интереса к гликомике — науке об углеводах. Эта дисциплина позволяет объяснять межклеточные взаимодействия и формирование иммунитета, разрабатывать углеводные и конъюгатные вакцины и понимать гликом как одну из молекулярных основ жизни.
В отличие от других «-омик», гликомике много лет не хватало компьютерных инструментов исследований. Коллектив ученых из Института органической химии им. Н. Д. Зелинского РАН (ИОХ РАН) начиная с 2004 года разрабатывал и совершенствовал информационный продукт для ученых, исследующих природные углеводы. Этот проект, начавшийся как база данных углеводных структур, трансформировался в универсальную платформу хемо- и биоинформатики, став одним из ведущих мировых ресурсов для углеводных исследований. Он помогает устанавливать химическую и пространственную структуру этих важнейших биомакромолекул, исследовать их биологические функции и аккумулирует накопленные структурные, биохимические, медицинские и другие знания об углеводах. Для углеводов прокариот и других микробов этот проект предоставляет уникальные данные и сервисы, недоступные ни в одном другом мировом проекте.
Группа гликоинформатики лаборатории углеводов и биоцидов имени академика Н. К. Кочеткова ИОХ РАН внесла значительный вклад в гликомику, в том числе предоставив современный уровень информационной обеспеченности и заложив основы новой области знаний — гликоинформатики, то есть науки о применении информатики в исследовании углеводов. Теперь ученым-гликохимикам и гликобиологам доступны разнообразные базы данных и инструменты для поиска, обработки, визуализации и интерпретации знаний об углеводах. Среди этих инструментов выделяется уникальный по точности предсказаний инструмент автоматического анализа спектров ядерного магнитного резонанса (ЯМР) сложных углеводов природного происхождения.
Все разработки — как прикладные, так и теоретические — отражены на бесплатном интернет-портале Carbohydrate Structure Database (CSDB), который базируется в ИОХ РАН.
В июне 2024 года вышел обзор новых аспектов развития этого проекта за последние восемь лет. Ученые разместили в базе данных все когда-либо опубликованные структуры углеводов микроорганизмов, включая бактерии, археи, одноклеточные грибы и простейших. В проекте есть онлайн-редактор, который дает возможность ввода и моделирования трехмерных структур, графической визуализации сложных гликанов и экспорта структур в различные форматы хемо- и гликоинформатики. Также можно создавать дескрипторы и изомеры для не полностью определенных структур на атомарном уровне и работы с углеводной семантикой.
ИОХ РАН продолжает вносить значительный вклад в мировую науку, делая исследования в области гликомики более доступными и эффективными. База данных по структуре углеводов постоянно развивается и обновляется, обеспечивая полное покрытие по гликанам микроорганизмов и грибов. Будучи платформой гликоинформатики, CSDB предоставляет аналитические, статистические и вычислительные сервисы, связанные с гликанами и их производными. Она способствует дальнейшему развитию гликомики и поддерживает исследователей по всему миру.
Филипп Тоукач, д. х. н, ведущий научный сотрудник ИОХ РАН, ответил на вопросы «Ъ-Науки»:
— Почему так важно изучать углеводы?
— В науках о жизни углеводы (гликаны, биогликаны, сахариды) долгое время оставались в тени известных биологических «строительных блоков» — нуклеиновых кислот и белков. Несмотря на огромное количество разнообразных углеводных компонентов, обнаруженных в клеточных стенках как прокариот, так и эукариот, только открытие гликозилирования белков в конце ХХ века привлекло внимание ученых к фундаментальной роли углеводов в биологических процессах. С тех пор аналогично геномике и протеомике активно развивалась гликомика, целью которой стали классификация и выявление функций всех гликанов в живых организмах.
Кроме давно известных механических и энергетических функций углеводы имеют множество регуляторных функций во всех проявлениях жизни, от бактерий до человека. Прикрепляясь к белкам в многоклеточных организмах, они служат метками, модулирующими активность ферментов и межклеточные взаимодействия. В растениях низкомолекулярные конъюгаты, гликозилированные множеством способов, обеспечивают уникальную биологическую активность растительных видов. В микроорганизмах углеводная клеточная стенка служит динамическим барьером, который как защищает клетку от среды, так и передает сигналы для взаимодействия с ней. Бактериальные углеводные антигены демонстрируют огромное разнообразие химических структур, и именно они определяют иммуноспецифичность штаммов при взаимодействии с заражаемым организмом.
Учитывая такое разнообразие ролей, в современной биологии и фундаментальной медицине крайне востребованы знания о биогликанах: об их химических структурах (последовательность мономерных остатков), пространственной организации, путях биосинтеза и метаболизма. Знания о ферментах, проявляющих углеводную активность, например, о гликозилтрансферазах, делают возможным синтез биологически активных углеводных продуктов и гликоконъюгатных вакцин.
— Углеводы — один из наиболее химически разнообразных классов биомакромолекул. Как база данных, разработанная учеными Института органической химии им. Н. Д. Зелинского РАН, поможет использовать тот объем информации, который накопился в гликомике за время изучения углеводов?
— К настоящему времени объем накопленной информации об углеводах многократно превысил уровень, позволяющий ориентироваться в этом океане данных без специальных средств. Поэтому прогресс гликобиологии во многом зависит от наличия единого информационного пространства данных по структуре, свойствам и функциям углеводов, связанных с таксономией и свойствами их природных источников. Основным средством создания такого пространства являются базы данных гликомики и прогностические сервисы, использующие данные из этих баз. Как и другие углеводные базы данных, Carbohydrate Structure Database собирает, формализует, сохраняет, классифицирует, систематизирует, проверяет на наличие ошибок и снабжает метаданными всю накопленную углеводную информацию, изначально доступную в виде научных публикаций. Кроме этого она дополняет опубликованные данные предсказанными знаниями об углеводах и предоставляет различные сервисы для моделирования структуры и свойств углеводных биомакромолекул.
Друг от друга углеводные базы данных отличаются выбранными типами информации, покрытием, качеством данных и набором сервисов. Carbohydrate Structure Database спроектирована для обработки максимально полного объема данных (структуры, таксономия, библиография, спектры, биологическая активность, ферменты биосинтеза, роль в патогенезе и т. д.). По покрытию она занимает уникальную нишу, являясь единственным масштабным источником систематизированных данных об углеводах микроорганизмов. Она предоставляет выдающееся качество данных, так как является одной из немногих баз, полностью курируемых экспертами-гликобиологами (записи проверяют люди, а не только системы искусственного интеллекта). Набор сервисов в CSDB ориентирован в первую очередь на моделирование структуры и предсказание связи структура—спектр ЯМР; точность ЯМР-инструментов значительно превышает существующие аналоги.
О востребованности CSDB в мировой гликомике свидетельствуют множество обзоров и тысячи цитирований в научной литературе.
— Как работают современные углеводные базы данных?
— Современные углеводные базы данных, в том числе CSDB, работают как набор программного обеспечения на сервере. Свои функции, связанные с поиском, отображением, фильтрацией, конверсией, обобщением и предсказанием данных, они предоставляют в виде веб-интерфейса.
Если вопрос о технической реализации, CSDB — это реляционная база данных, снабженная собственными скриптами обработки информации и интерфейсом пользователя.
— Как происходит пополнение этих баз?
— Пополнение углеводных баз, и CSDB в частности, происходит следующими путями:
- Поиск релевантной литературы в библиографических базах (автоматически) и ее ретроспективный анализ экспертами-гликобиологами (вручную и с помощью оригинальных программ). Такие базы называются первичными; CSDB относится именно к этому типу.
- Сбор данных от пользователей с последующей проверкой и дополнением.
- Автоматический сбор, конверсия, курирование и дополнение данных из других баз (эта функция вторичных баз данных присутствует и в CSDB; данные курируются вручную).
- Поиск, извлечение и формализация знаний из опубликованных статей средствами искусственного интеллекта.
- Массовое предсказание данных, которые можно получить моделированием, и заполнение этими данными отдельной части базы (используется в CSDB для длительных ресурсоемких предсказаний, которые невозможно сделать «на лету»).
В CSDB пополнение проводится на регулярной основе; для поиска, аннотирования и курирования данных используются как компьютерные программы, написанные в рамках проекта CSDB, так и труд экспертов. Команда аннотаторов и кураторов включает от пяти до десяти человек (в зависимости от текущего финансирования), разработаны программы их обучения и контроля, а также специальный софт. Эти средства обеспечивают покрытие CSDB, близкое к полному в рамках микроорганизмов и грибов. Полная база хороша тем, что даже отрицательный ответ на поисковый запрос является значимой научной информацией, так как, по сути, сообщает, что искомая комбинация параметров науке неизвестна (в отличие от неполной базы, где отрицательный ответ может означать лишь то, что информация не попала в конкретную базу). Менее 10% углеводных баз (в том числе CSDB) являются полными в рамках какой-либо группы организмов; полных баз по всем природным углеводам не существует.
— Могут ли они совмещаться и дополнять друг друга?
— В теории так и должно быть, однако на практике взаимная интеграция углеводных проектов, в том числе баз данных, долгое время была камнем преткновения в гликоинформатике. Это связано с тем, что из-за огромного химического разнообразия и неполноты установления структур кодирование, идентификация и протоколы обмена информацией в гликомике были стандартизированы лишь в последние годы, и этот процесс еще полностью не завершен. Появившиеся проекты новой области биоинформатики — гликоинформатики — не полностью совместимы друг с другом как по покрытию, так и по форматам данных и возможностям, предоставляемым ученым-пользователям. Каждый из таких проектов направлен на решение своего класса задач, тем не менее видится явная тенденция к взаимной интеграции. Более подробно об этом можно прочитать в эссе Egorova, Toukach «Glycoinformatics: bridging isolated islands in the sea of data» [англ., doi: 10.1002/anie.201803576].
CSDB нацелена на максимально возможное взаимодействие с другими проектами, чтобы пользователи могли получать данные из разных баз в рамках единого интерфейса. Для этого разработаны и внедрены (после принятия научным сообществом — не только в CSDB, но и в основных мировых углеводных базах — Glycosciences.DE, UnicarbKB, GlyTouCan, KEGG Glycan, Glygen и др.) углеводная онтология GlycoRDF и стандарты записи и визуализации структур. Кроме интерфейса пользователя CSDB снабжена автоматическим программным интерфейсом, позволяющим другим базам и веб-роботам опрашивать CSDB и получать ответы в формализованном виде. Везде, где это возможно, CSDB использует индексы из смежных областей и генерирует ссылки на связанные объекты в других базах, не только углеводных: NCBI PubMed (библиографическая), NCBI Taxonomy (дерево жизни), GlyTouCan (репозиторий структур), ICD-11 (Международный классификатор болезней человека) и др.
— Кто может пользоваться проектом Института органической химии?
— Любой человек (молекулярный биолог, гликохимик, фармацевт, иммунолог или просто пользователь) или робот, имеющий выход в интернет. Использование возможно из любой точки мира, на бесплатной основе, без регистрации.
— Как этот проект может помочь в медицине и гликомике?
— В фундаментальной медицине CSDB:
- Облегчает и упрощает доступ к данным о биологических ролях конкретных углеводов в патогенных микробах и в организме человека, обеспечивая возможность поиска информации по множеству критериев. Наиболее востребованной в исследовании механизмов инфицирования и иммунного ответа является информация о том, какие углеводные антигены соответствуют каким штаммам микроорганизмов, какие заболевания они вызывают, какие между ними есть серологические кросс-реакции.
- Делает возможным автоматический доступ к этим же данным в потоковом режиме для большого числа объектов. Это важно для скрининговых исследований в медицине и биологии.
- Дает ученым, исследующим фундаментальные причины биологической активности природных гликозидов и потенциальных углеводсодержащих лекарств или вакцин, доступ к предсказаниям пространственной структуры молекул биогликанов и протоколам ее проверки.
Подготовлено при поддержке Минобрнауки