ИКРБС
№ 225011700901-4Искусственный интеллект для de novo расшифровки структур низкомолекулярных соединений с помощью хромато-масс-спектрометрии: разработка методологических основ и программного обеспечения (Лаборатория "умных" методов химического анализа)
27.12.2024
Объектом исследования являются сложные смеси органических соединений различного происхождения; низкомолекулярные органические соединения (в том числе экотоксиканты), структура которых не известна; хроматографические и хромато-масс-спектрометрические системы, неподвижные фазы в газовой и жидкостной хроматографии.
Цель работы: изучение хроматографического поведения различных неподвижных фаз, создание новых моделей для предсказания хроматографического удерживания, оценка надежности имеющихся баз данных, создание и сравнение алгоритмов для масс-спектрального поиска и обработки данных хромато-масс-спектрометрии, новые способы оценки надежности моделей машинного обучения в рамках работы по созданию комплексного подхода к определению структуры и идентификации неизвестных низкомолекулярных органических соединений с помощью сочетания хромато-масс-спектрометрии и методов искусственного интеллекта. Данный комплексный подход позволит предварительно устанавливать структуры неизвестных соединений без препаративного выделения непосредственно из хромато-масс-спектрометрических данных. Сочетание различных методов (газовая и жидкостная хроматография, несколько неподвижных фаз, различные источники ионов) может позволить установить структуру молекулы de novo при использовании их совместно с методами искусственного интеллекта. Такой подход может быть использован при анализе объектов окружающей среды, в промышленности и биомедицинских исследованиях. Важными задачами при этом являются, в том числе, изучение хроматографического поведения и предсказание удерживания, оценка надежности баз данных и моделей машинного обучения, совершенствование различных алгоритмов (масс-спектральный поиск, обработка хроматограмм).
Метод или методология проведения работы: использовались газовый хромато-масс-спектрометр с ионизацией электронами и квадрупольным масс-анализатором и хромато-масс-спектрометр (высокоэффективная жидкостная хроматография), включающий в себя источник ионов, основанный на электрораспылении и времяпролетный масс-анализатор; для нестандартных неподвижных фаз применялись «двухстадийные» модели: индексы удерживания для стандартных неподвижных фаз, предсказанные с помощью глубокого обучения, использовались (наряду с другими молекулярными дескрипторами) в качестве входных переменных. Наряду с экспериментальными данными, полученными в рамках данного проекта, использовалось автоматическое извлечение данных из популярной хромато-масс-спектрометрической базы данных NIST. Для выполнения всех работ было использовано разработанное исполнителями проекта программное обеспечение на языках программирования Java и Python. Для предсказания различных характеристик использовались метод опорных векторов, градиентный бустинг и нейронные сети различной архитектуры: графовые нейронные сети, свёрточные нейронные сети и др. Для оценки надежности предсказания свойств молекул, сделанных с помощью машинного обучения, использовались ансамбли моделей, различные метрики молекулярного подобия и классификация молекул.
Результаты работы и их новизна:
- впервые разработаны простые и точные готовые к использованию уравнения для предсказания газохроматографических индексов удерживания для неподвижных фаз на основе 50%-цианопропилфенил-полиметилсилоксана и 35%-фенил-полиметилсилоксана. Эти фазы широко используются в исследованиях, однако методы предсказания индексов удерживания для них отсутствовали. В качестве молекулярных дескрипторов были использованы индексы удерживания, предсказанные с помощью глубокого обучения, для стандартных неподвижных фаз (двухстадийные модели). Разработанные модели наиболее полезны при анализе растительного сырья;
- впервые показана дегидратация ароматических спиртов в условиях газовой хромато-масс-спектрометрии при использовании в качестве неподвижной фазы ионной жидкости на основе катионов пиридиния. Каталитическую активность неподвижных фаз, приводящую к внутриколоночному разложению аналитов, необходимо учитывать при синтезе неподвижных фаз. Новые неподвижные фазы при исследованиях необходимо тестировать с использованием разнообразного набора соединений, а не ограничиваться очень небольшим числом веществ, как делают многие исследователи;
- получены новые данные по хроматографическому поведению различных аналитов и неподвижных фаз в условиях газовой и жидкостной хроматографии;
- впервые получены универсальные (разработанные для веществ различных классов) модели машинного обучения для оценки зависимости величины индекса удерживания от скорости нагрева в режиме программирования температуры (газовая хроматография);
- впервые проведено статистическое исследование этого вопроса с использованием большого набора данных. В подавляющем большинстве случаев современные модели для предсказания индексов удерживания игнорируют влияние температурной программы. Данная работа открывает возможность для более точного предсказания индексов удерживания с учетом этого фактора;
- проведена критическая оценка точности индексов удерживания в популярной базе данных NIST. Показано, что для целого ряда соединений (полихлорфенолы и другие производные фенола, производные пиразола и триазола, имидазол) база данных содержит совершенно неверные значения. Для ряда молекул (в том числе важных экотоксикантов) уточнены значения индексов удерживания. Впервые показано, что наличие целого ряда значений в базе данных NIST, претендующих на то, что они являются независимыми, не является гарантией того, что эти значения являются точными. Выявлены причины, приводящие к попаданию ошибочных значений в базу данных;
- изучена работа популярного алгоритма Identity, используемого в программном обеспечении MS Search, NIST, США. Несмотря на то, что данное программное обеспечение широко используется химиками-аналитиками, соответствующее действительности описание его работы в открытой печати до работ исполнителей отчета отсутствовало. Также выполнены работы по оптимизации алгоритмов обработки масс-хроматограмм, библиотечного поиска, предсказания масс-спектров и визуализации масс-спектральных данных;
- разработан комплексный подход к оценке надежности предсказания свойств молекул по их структуре с помощью машинного обучения, учитывающий одновременно ряд факторов.
Область применения (рекомендации по внедрению): разработанные модели, теоретические подходы и полученные экспериментальные данные будут входить в состав комплексного подхода, на основе которого будет разработано полностью автоматизированное программное обеспечение и экспериментальная методика для установления структуры «малых» молекул на основе хромато-масс-спектрометрических данных без препаративного выделения. Этот подход найдет применение в метаболомике, анализе объектов окружающей среды, анализе промышленных объектов, в криминалистике, в изучении каталитических процессов.
ГРНТИ
28.23.37 Нейронные сети
31.19.29 Анализ органических веществ
Ключевые слова
ИДЕНТИФИКАЦИЯ
ХЕМОИНФОРМАТИКА
АНАЛИТИЧЕСКАЯ ХИМИЯ
НЕЦЕЛЕВОЙ АНАЛИЗ
МАШИННОЕ ОБУЧЕНИЕ
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
МАСС-СПЕКТРОМЕТРИЯ
ХРОМАТОГРАФИЯ
Детали
НИОКТР
Заказчик
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Исполнитель
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ ИНСТИТУТ ФИЗИЧЕСКОЙ ХИМИИ И ЭЛЕКТРОХИМИИ ИМ. А.Н. ФРУМКИНА РОССИЙСКОЙ АКАДЕМИИ НАУК
Бюджет
Средства федерального бюджета: 17 003 132 ₽
Похожие документы
Разработка методов искусственного интеллекта для комплексного хромато-масс-спектрометрического анализа и оценки экологической опасности сложных смесей и их применение к продуктам трансформации несимметричного диметилгидразина
0.945
ИКРБС
Разработка методов искусственного интеллекта для комплексного хромато-масс-спектрометрического анализа и оценки экологической опасности сложных смесей и их применение к продуктам трансформации несимметричного диметилгидразина
0.936
НИОКТР
Идентификация структурных аналогов и изомеров на основе расчетных и хромато-масс-спектрометрических данных с использованием машинного обучения
0.933
НИОКТР
Искусственный интеллект для de novo расшифровки структур низкомолекулярных соединений с помощью хромато-масс-спектрометрии: разработка методологических основ и программного обеспечения
(Лаборатория "умных" методов химического анализа)
0.926
НИОКТР
Идентификация структурных аналогов и изомеров на основе расчетных и хромато-масс-спектрометрических данных с использованием машинного обучения
0.917
ИКРБС
Технологическая платформа для параллельного структурного исследования индивидуальных молекул в составе природных органических матриц
0.911
НИОКТР
Разработка метода оценки распределения компонентов сложных органических смесей и их метаболитов в тканях и биологических жидкостях для прогнозирования молекулярных мишеней их действия in silico
0.910
НИОКТР
Вычислительные методы для аннотирования данных тандемной масс-спектрометрии
0.908
Диссертация
НОВЫЕ ПОДХОДЫ К ПОЛУЧЕНИЮ ХАРАКТЕРИСТИЧЕСКИХ ПРОФИЛЕЙ ОБЪЕКТОВ СО СЛОЖНОЙ МАТРИЦЕЙ МЕТОДАМИ ХРОМАТОГРАФИИ И ЭЛЕКТРОФОРЕЗА (промежуточный, этап 1)
0.906
ИКРБС
Новые сепарационные материалы для ионной и гидрофильной хроматомасс-спектрометрии
0.905
ИКРБС