Умные методы
Ученые смогут точно определять структуру неизвестных веществ в сложных смесях
Ученые молодежной лаборатории умных методов химического анализа ИФХЭ РАН разработали интерактивное программное обеспечение CHERESHNYA, позволяющее «в один клик» строить количественные отношения между структурой молекулы и ее свойствами для условий газовой хроматографии, и применили его для изучения новых газохроматографических неподвижных фаз на основе ионных жидкостей. Исследование, поддержанное Российским научным фондом, находится на стыке сразу трех областей науки: хемоинформатики, аналитической химии и физической химии. Результаты опубликованы в высокорейтинговых журналах.
Фото: Getty Images
О возможностях и особенностях газовой хроматографии, о том, как, глядя на структуру молекулы, оценить такой значимый параметр, как индекс удерживания, о сочетании линейных уравнений, глубокого обучения, инструментальных методов анализа и отчасти «мокрой» химии и о преимуществах, которые дает CHERESHNYA, «Ъ-Науке» рассказала заведующая молодежной лаборатории умных методов химического анализа ИФХЭ РАН, кандидат химических наук Анастасия Шолохова.
— Давайте начнем с газовой хроматография. Что это? Где она применяется?
— Газовая хроматография - один из важнейших методов разделения и анализа сложных смесей, который применяется повсеместно: в биомедицинских исследованиях, в криминалистике, при анализе объектов окружающей среды и, конечно же, в научных исследованиях. При газохроматическом анализе сложная смесь химических веществ нагревается и испаряется, образовавшиеся пары «подхватывает» поток газа. Увлекаемые потоком, пары попадают в хроматографическую колонку — тоненькую трубку (капилляр), покрытую изнутри еще более тонким слоем густой и нелетучей жидкости. Эта жидкость в газовой хроматографии называется неподвижной фазой в противовес подвижной фазе — потоку газа-носителя. Встречаясь с неподвижной фазой, молекулы смеси «притормаживают» и «отстают» от потока газа-носителя. Это происходит из-за того, что они периодически на мгновение растворяются в густой жидкости, которой покрыта изнутри колонка, и останавливают свое движение. Затем они продолжают движение с потоком газа-носителя.
Хроматографическое разделение смеси происходит потому, что молекулы разных веществ «отстают» от уносящего их газа по-разному. Одни двигаются совсем медленно, останавливаясь (растворяясь в неподвижной фазе) надолго. Другие же почти не взаимодействуют с неподвижной фазой и пробегают колонку намного быстрее. В результате исходная смесь разделяется на компоненты, которые выходят из колонки «по очереди». На выходе из хроматографической колонки установлен детектор, который фиксирует выносимые (элюируемые) вещества. Таким образом выполняется химический анализ смеси. Возможна и обратная задача, когда через колонку пропускают вещества с хорошо изученными свойствами и по их поведению делают заключения о свойствах неподвижной фазы.
Точное время, которое вещество проводит в хроматографической системе, измерить просто. Однако это не очень представительная величина, потому что оно зависит от множества факторов, таких как температура системы и скорость потока. Поэтому много десятилетий назад были разработаны так называемые индексы удерживания — числа, показывающие, насколько сильно вещество удерживается в хроматографической колонке. Индекс удерживания зависит главным образом от типа неподвижной фазы и структуры самого вещества. Он слабо изменяется при изменении температуры, скорости потока и других «настроек». В первом приближении можно считать, что индекс удерживания для заданной неподвижной фазы — это свойство молекулы, определяемое ее строением.
Конечно, установить структуру молекулы только по единственному числу — индексу удерживания — невозможно, однако в качестве вспомогательного параметра при химическом анализе индекс удерживания зачастую имеет определяющее значение. Например, если ученый высказал предположение о формуле зафиксированного детектором соединения, то, сравнив наблюдаемый индекс удерживания с записанным в справочнике, он может это предположение подтвердить или опровергнуть.
Проблема состоит в том, что в подавляющем большинстве случаев справочная информация об индексах удерживания отсутствует. Возникает вопрос: можно ли каким-то образом сказать, чему равен индекс удерживания, просто глядя на структурную формулу молекулы? Именно этой проблеме посвящен цикл работ, выполняемых в нашей молодежной лаборатории.
— Действительно ли можно рассчитать индекс удерживания по структурной формуле соединения?
— Ученые в разных странах много лет работают над этой проблемой. В настоящее время чаще всего строятся количественные соотношения «структура—удерживание», основанные на молекулярных дескрипторах.
— Что такое молекулярные дескрипторы?
— Молекулярные дескрипторы — величины (числа), которые легко рассчитать, глядя на структуру молекулы. Например, молекулярная масса — молекулярный дескриптор. Количество атомов кислорода — молекулярный дескриптор. Длина самой длинной углеродной цепи — также дескриптор. Перечисленные дескрипторы совсем простые и понятные; бывают значительно более сложные молекулярные дескрипторы, вычисляемые с помощью различных математических трюков. Объединяет их одно: на основе структуры молекулы компьютер за доли секунды может рассчитать молекулярные дескрипторы.
— Как можно применить молекулярные дескрипторы для оценки индексов удерживания?
— Традиционный подход состоит в том, чтобы выбрать несколько молекулярных дескрипторов и построить линейное уравнение, связывающее молекулярные дескрипторы (то есть описанную с их помощью структуру молекулы) с удерживанием. Такое уравнение можно использовать для предсказания индексов удерживания, что необходимо для химического анализа и идентификации неизвестных веществ. Но его можно рассмотреть как источник сведений о механизме удерживания — о том, почему те или иные молекулы удерживаются сильнее, чем другие. Дело в том, что молекулярные дескрипторы имеют определенный физический смысл. Алгоритм, который отбирает молекулярные дескрипторы, отдает приоритет тем, которые сильнее влияют на удерживание.
Проблема в том, что количественные соотношения, связывающие структуру и удерживание, в большинстве случаев еще не слишком точны. Хотя опубликованы десятки и сотни работ о предсказании индексов удерживания, те, кто на практике занимаются хроматографией, игнорируют предложенные модели и пользуются лишь справочными базами данных и простейшими аддитивными схемами.
Наша группа в лаборатории физико-химических основ хроматографии и хромато-масс-спектрометрии ИФХЭ РАН в 2019 году начала заниматься этими вопросами, и нам удалось многое изменить. В 2019 году мы впервые применили к этой задаче глубокие нейронные, и они сразу же показали впечатляющие результаты. Точность и универсальность моделей превосходила все, что было до этого. Потом и другие группы ученых из других стран начали применять к этой задаче глубокое обучение и получили результаты, даже превосходящие наши.
— Тем не менее в работе с неподвижными фазами на основе ионных жидкостей вы используете линейные уравнения вместо нейронных сетей. Почему?
— Нейронные сети требуют большого объема данных для обучения. Когда мы рассматриваем стандартные неподвижные фазы — проблем нет. Для стандартных неполярных неподвижных фаз на основе полидиметилсилоксана (очень популярная неподвижная фаза в газовой хроматографии) доступна информация об индексах удерживания примерно для 100 тыс. молекул. Было бы больше, было бы лучше, но такого количества записей уже достаточно, чтобы применить глубокое обучение. Для стандартных полярных неподвижных фаз ситуация сложнее: количество молекул, для которых есть нужная информация, меньше примерно в десять раз. Поэтому при обучении нейронной сети «с нуля» точность предсказания будет не так хороша, как хотелось бы. Повысить точность удалось за счет так называемого трансферного обучения: в качестве начального состояния при обучении использовалась модель, уже обученная, но на другом материале, в данном случае — на материале для неполярных неподвижных фаз. Такой трюк часто используется в глубоком обучении, это один из наиболее распространенных методов в современном искусственном интеллекте.
Если перейти к нестандартным неподвижным фазам, то наборы данных будут совсем маленькие — всего несколько десятков или сотен молекул. В этом случае прямое применение глубокого обучения оказывается малоосмысленным. Оно не работает даже в варианте «трансферного» обучения. Нейронные сети, к сожалению, слишком «жадные» до данных.
— Какой был найден выход?
— Первой ключевой идеей стало использование индексов удерживания, предсказанных для стандартных неподвижных фаз, например для полиэтиленгликоля, в качестве молекулярных дескрипторов. Ведь что такое молекулярный дескриптор? Это характеризующее молекулу число, которое может быть легко рассчитано, исходя из структуры молекулы. Но если у нас есть нейронная сеть, которая предсказывает индекс удерживания для стандартной неподвижной фазы, то эти предсказания просто по определению являются ни чем иным, как молекулярным дескриптором. Мы проверили эту идею, и оказалось, что она работает! Когда мы решали задачу — оценить индексы удерживания для нестандартных неподвижных фаз, то добавление в список молекулярных дескрипторов таких «нейросетевых» индексов удерживания для стандартных неподвижных фаз неожиданно уменьшило среднюю ошибку (погрешность предсказания) в два-три раза! Хотя напрямую применить к этой задаче глубокие нейронные сети не представляется возможным, такая «двухэтажная» схема позволяет использовать всю мощь глубокого обучения для нестандартных неподвижных фаз, даже если доступный для построения модели набор данных содержит лишь сотню-другую молекул.
Когда наши коллеги из Новосибирска синтезировали новые перспективные неподвижные фазы на основе ионных жидкостей, мы решили провести анализ с помощью молекулярных дескрипторов и охарактеризовать новые неподвижные фазы.
— Это какие-то особенные неподвижные фазы на основе ионных жидкостей?
— Ионная жидкость — это жидкость, состоящая из одних ионов, то есть это расплавленная соль. Если бытовую поваренную соль расплавить при 800 градусах, она тоже превратится в ионную жидкость, содержащую положительные ионы натрия и отрицательные — хлора. Но на практике под термином «ионные жидкости» имеют в виду соли с низкой температурой плавления, которые плавятся при температуре ниже 100 градусов. Некоторые ионные жидкости образуют пленку на поверхности твердого тела. Именно их наносят на поверхность адсорбента в хроматографических колонках. Они очень интересны потому, что это сильнополярные колонки, которые стабильны до 300 градусов — до температур, при которых обычно можно использовать только неполярные колонки. Сочетание высокой полярности и термостабильности делает их весьма перспективными.
Мы экспериментально измерили индексы удерживания полутора сотен соединений на трех неподвижных фазах на основе ионных жидкостей, обнаружили (как и ожидалось), что «двухэтажная» схема с применением индекса удерживания для полиэтиленгликоля в качестве молекулярного дескриптора неплохо работает. Казалось бы, все хорошо. Однако при попытке как-то охарактеризовать с помощью молекулярных дескрипторов новые неподвижные фазы мы столкнулись с тем, что при удалении буквально нескольких молекул из набора данных все резко менялось: начинали отбираться другие молекулярные дескрипторы.
— Но ведь так и должно быть, чтобы разные соединения по-разному взаимодействовали с колонкой и у них отбирались свои дескрипторы?
— Конечно, если один ученый рассматривает азотсодержащие гетероциклы, а другой — легкие кислородсодержащие соединения, то столь разные вещества могут взаимодействовать с неподвижной фазой по-разному. Но ведь мы всего-навсего на несколько молекул изменили набор данных, оставив большую часть записей неизменной. В работе мы претендуем на то, что можем делать фундаментальные выводы о неподвижной фазе. Разве такие выводы могут измениться при удалении нескольких молекул? Это нелогично. Поэтому мы решили повторять процедуру отбора многократно, каждый раз немного изменяя набор данных, чтобы сделать ее в какой-то мере более воспроизводимой. Из этих исследований и выросла идея программы CHERESHNYA — программного обеспечения для построения количественных соотношений «структура — удерживание». CHERESHNYA генерирует различные типы молекулярных дескрипторов, учитывает в качестве молекулярных дескрипторов индексы удерживания для стандартных неподвижных фаз и добивается воспроизводимости при этих процедурах.
— Как и где может быть использована ваша программа?
— Во-первых, для предсказания (оценки) индексов удерживания, в химическом анализе. Когда химик-аналитик видит неизвестное вещество, вышедшее из колонки, то на основании масс-спектра или иным способом он может выдвинуть предположение о его структуре. Однако при этом несложно ошибиться. Сравнение наблюдаемого индекса удерживания с тем, который должен быть у вещества при такой структуре, позволяет повысить надежность идентификации. Задачи нецелевого анализа возникают на каждом шагу в химических и биологических исследованиях, при анализе объектов окружающей среды, в криминалистике.
Во-вторых, но это надо делать с большой осторожностью, наше программное обеспечение можно использовать для того, чтобы охарактеризовать неподвижную фазу. В отличие от предыдущих исследований мы уверены, что оцениваем важность молекулярных дескрипторов достаточно воспроизводимым образом.
В Москве, Самаре, Воронеже и других городах работают ученые, которые рассчитывают дескрипторы для газовой хроматографии и характеризуют свойства сорбентов. Наша CHERESHNYA очень сильно облегчает работу, позволяя одним нажатием кнопки получать уравнение, характеризующее неподвижную фазу. Также наше программное обеспечение позволяет предсказывать индексы удерживания.
Программное обеспечение является бесплатным, с открытым исходным кодом.
— Программное обеспечение подходит только для ионных жидкостей?
— Конечно, нет! Оно может быть использовано для любых неподвижных фаз в газовой хроматографии. В будущем мы планируем расширить область применимости нашей работы и на жидкостную хроматографию.
— Почему программа называется CHERESHNYA?
— В этом названии нет какого-то научного смысла, такая традиция есть в нашей лаборатории — давать программам названия фруктов и овощей.