Как избежать ложной идентификации
В молодежной лаборатории «умных» методов химического анализа ИФХЭ РАН дополняют и исправляют данные в международных базах данных
Ученые молодежной лаборатории «умных» методов химического анализа ИФХЭ РАН экспериментально определили хроматографические индексы удерживания для 32 азотсодержащих соединений, являющихся возможными продуктами трансформации несимметричного диметилгидразина. Исследования впервые выполнены для трех применяемых в газовой хроматографии неподвижных фаз (неполярной, полярной и среднеполярной).
Заведующая молодежной лабораторией «умных» методов химического анализа ИФХЭ РАН, кандидат химических наук Анастасия Шолохова
Фото: ИФХЭ РАН, Ольга Макарова
Сравнение экспериментальных данных с предсказанными с помощью методов машинного обучения показало, что используемые в ИФХЭ РАН возможности искусственного интеллекта предсказывают индексы удерживания с высокой достоверностью. Результаты исследования дополняют и для некоторых записей корректируют данные, содержащиеся в базе данных NIST, которая является мировым стандартом для идентификации соединений методом газовой хромато-масс-спектрометрии. Способность нейросети предсказывать индексы удерживания может быть полезна при идентификации соединений без использования стандартных образцов.
Рассказывает заведующая молодежной лабораторией «умных» методов химического анализа ИФХЭ РАН, кандидат химических наук Анастасия Шолохова: «Наша работа — первая, в которой экспериментально измерено хроматографическое удерживание азотсодержащих гетероциклов для трех неподвижных фаз и проведено сравнение результатов с теми, что предсказала нейросеть, и с теми, что получили другие научные группы. В мировых базах данных содержится не слишком много информации по индексам удерживания. Даже для наиболее часто применяемых фаз, таких как стандартная неполярная фаза или стандартная полярная фаза, в базе данных NIST отсутствуют индексы удерживания, соответственно, для половины и двух третей соединений, которые мы рассматривали. А для среднеполярной фазы индексов удерживания для этих соединений в базе нет вообще. Наши результаты будут полезны не только при идентификации продуктов трансформации несимметричного диметилгидразина. Азотсодержащие гетероциклы в большинстве своем являются токсичными, поэтому их присутствие в окружающей среде необходимо контролировать».
Фото: А.Карнаева,А.Шолохова
При масс-спектрометрическом исследовании изучаемая молекула «разбивается» на отдельные фрагменты — ионы, каждый со своим зарядом и массой, и подсчитывается число «осколков» с определенным соотношением «масса—заряд». Полученную зависимость числа ионов от их соотношения «масса—заряд» называют масс-спектр. Проводя нецелевой хромато-масс-спектрометрический анализ, ученые, как правило, сравнивают полученный экспериментальный масс-спектр с данными из библиотеки масс-спектров (например, NIST) и делают выводы о возможной структуре молекулы. Проблема в том, что поиск по базе масс-спектров примерно в 20% случаев приводит к неверному результату (так называемая ложная идентификация), даже если нужный масс-спектр имеется в базе данных. Если масс-спектра нет, вероятность ошибки возрастает во много раз. Изомеры (молекулы с одинаковым составом атомов, которые расположены по-разному) этим методом различить невозможно. Серьезным подспорьем при идентификации является использование хроматографических индексов удерживания — величин, которые характеризуют скорость перемещения молекулы через хроматографическую колонку. Индексы удерживания главным образом зависят от строения соединения и химической природы неподвижной фазы. Индекс удерживания может являться дополнительным критерием для отсечения ложных кандидатов при масс-спектральном поиске: с его помощью удается исключить из списка кандидатов те соединения, для которых индексы удерживания кардинально отличаются от экспериментальных. «Для изомеров использование индекса удерживания — единственный способ определить, о каком соединение идет речь,— объяснила Анастасия Шолохова.— Но, во-первых, далеко не для всех веществ в базе данных приведены индексы удерживания. Во-вторых, современные исследователи обоснованно ставят под сомнение достоверность содержащихся в базе записей».
В лаборатории физико-химических основ хроматографии и хромато-масс-спектрометрии ИФХЭ РАН ранее был разработан самый точный на данный момент способ предсказания индексов удерживания с использованием методов машинного обучения. Обученная сверточная нейросеть позволяет предсказывать индексы удерживания на основании предполагаемой структуры молекулы. Эти значения можно использовать, когда в базе данных нет нужной информации.
«Однако, и это естественно, результат предсказания тем точнее, чем больше структура анализируемой молекулы похожа на те, по данным о которых обучали нейросеть,— заметила Анастасия Шолохова.— Мы задались вопросом: все ли хорошо и точно в международных базах данных и как их можно уточнить с помощью наших экспериментальных данных и “умных” методов? Мы обнаружили несоответствие индексов удерживания для нескольких гетероциклических соединений. Ошибочные значения, с одной стороны, приведут к неверной идентификации соединений, а с другой — повлияют на точность предсказания индексов удерживания, особенно если база данных мала. Искусственный интеллект обучается по тем данным, которые ему предлагают. Если эти данные неверны, он обучается неправильно и ошибка будет наслаиваться на ошибку как снежный ком. Мы подробно описали возможные источники ошибок для обнаруженных несоответствий в индексах удерживания, проанализировали их и планируем сделать публикацию на эту тему в ведущем хроматографическом журнале».
Полученные данные позволят идентифицировать ранее неизвестные продукты трансформации несимметричного диметилгидразина и разработать методы нейтрализации этих «новых» веществ, негативно влияющих на окружающую среду и человека. Также эти данные позволят критически оценить предыдущие работы по идентификации продуктов трансформации несимметричного диметилгидразина и сделать выводы о точности предсказания индексов удерживания.
Несимметричный диметилгидразин — один из компонентов ракетного топлива, высокотоксичное вещество, обладающее канцерогенностью, мутагенностью и другими вредными свойствами. Несимметричный диметилгидразин используется в ракетно-космической отрасли. Он попадает в окружающую среду на разных этапах эксплуатации: при падении ступеней ракет, в которых остается около тонны невыработанного топлива, при протечках из топливных баков или при авариях. Также отмечаются менее известные области применения несимметричного диметилгидразина: в растениеводстве и химической промышленности, в частности фармацевтической, полиграфической и др., в которых тоже могут происходить утечки этого вещества. В окружающей среде несимметричный диметилгидразин активно окисляется и трансформируется в сотни сложных соединений, некоторые из которых даже более токсичны, чем сам НДМГ. Перед исследователями стоит задача — выявить возможные продукты трансформации НДМГ в окружающей среде и, в частности, в биологических объектах. При этом ни в коем случае нельзя ограничиваться поиском только известных соединений, потому что на разнообразие природных условий НДМГ отвечает разнообразием продуктов трансформации. Поэтому необходимо идентифицировать каждое соединение в смеси. Получив структурные формулы для неизвестных соединений, специалисты могут делать выводы об их токсичности и их опасности для окружающей среды.
«Ни один из существующих методов хромато-масс-спектрометрии в одиночку не позволяет определить структуру неизвестного соединения “из одной масс-хроматограммы”, но сочетание нескольких методов и применение алгоритмов машинного обучения делают вероятным получение достоверного результата,— подвела итог Анастасия Шолохова.— Задача нашей молодежной лаборатории — создать методологию расшифровки структуры неизвестных молекул без их препаративного выделения в чистом виде из смеси, без использования стандартов и баз данных. Разрабатываемое программное обеспечение можно будет использовать для установления структур неизвестных соединений при экологических исследованиях, анализе промышленных объектов, в криминалистике, словом, везде, где требуется определять неизвестные вещества. Это амбициозная задача. Первые результаты нам удалось получить очень быстро, потому что наша новая молодежная лаборатория начинает работу не с чистого листа, а пользуется большим научным заделом, подготовленным лабораторией физико-химических основ хроматографии и хромато-масс-спектрометрии ИФХЭ РАН. Исследования по определению продуктов трансформации НДМГ под руководством члена-корреспондента РАН Алексея Константиновича Буряка ведутся более 25 лет. Подготовленные в ИФХЭ РАН методики аттестованы ВНИИМС и используются на предприятиях “Роскосмоса”».
Одновременное применение высокоэффективной жидкостной хромато-масс-спектрометрии (ВЭЖХ-МС), газовой хромато-масс-спектрометрии (ГХ-МС) и методов искусственного интеллекта позволяет эффективно идентифицировать соединения при нецелевом хромато-масс-спектрометрическом анализе. Сочетание этих методов позволяет определять структуры ранее неизвестных соединений, выявлять продукты трансформации токсикантов и принимать меры по их нейтрализации.
Молодежная лаборатория «умных» методов химического анализа создана в ИФХЭ РАН 22 апреля 2024 года. В ней работают восемь человек, из них четверо кандидатов наук.
По материалам: Karnaeva A, Sholokhova A. Validation of the identification reliability of known and assumed UDMH transformation products using gas chromatographic retention indices and machine learning. Chemosphere. 2024. V.362 . P. 142679.