![]() |
ИСТИНА |
Войти в систему Регистрация |
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
Цель работы – разработка протоколов и методик, основанных на совместном применении многомасштабных методов молекулярного моделирования и искусственного интеллекта для решения прикладных задач химии. (1) Разработка нейронной сети, способной различать реакционные и нереакционные состояния в фермент-субстратных комплексах в гидролазах, осуществляющих разрыв C–N, P–O, C–O связей на основании карт лапласиана электронной плотности, рассчитанных в реакционной области. Определение профилей субстратной специфичности для основной протеазы вируса SARS-CoV-2, бактериальных гидролаз, проводящих инактивацию антибиотиков, ферментов человека, проводящих гидролиз нейромедиаторов нервной системы. (2) Разработка нейронных сетей для определения формы и положения полос поглощения и флуоресценции флуоресцентных белков, способности к обратимому фотопереключению и необратимой фотоконверсии. В качестве входных данных будут использованы наборы геометрических характеристик, полученных в молекулярно-динамических траекториях. (3) Разработка алгоритма конформационного анализа органических молекул для построения поверхности их потенциальной энергии. Метод будет иметь возможность анализировать как изолированные органические молекулы, так и молекулы в заданном заранее окружении, например в кристаллической упаковке гибридных материалов.
The goal of the work is to develop protocols and techniques based on the joint use of multi-scale molecular modeling methods and artificial intelligence to solve applied chemistry problems. (1) Development of a neural network capable of distinguishing between reactive and non-reactive states in enzyme-substrate complexes in hydrolases that break C–N, P–O, C–O bonds based on electron density Laplacian maps calculated in the reaction region. Determination of substrate specificity profiles for the main protease of the SARS-CoV-2 virus, bacterial hydrolases that inactivate antibiotics, and human enzymes that hydrolyze nervous system neurotransmitters. (2) Development of neural networks to determine the shape and position of absorption and fluorescence bands of fluorescent proteins, the ability of reversible photoswitching and irreversible photoconversion. Sets of geometric characteristics obtained in molecular dynamics trajectories will be used as input data. (3) Development of an algorithm for conformational analysis of organic molecules to construct their potential energy surface. The method will be able to analyze both isolated organic molecules and molecules in a predetermined environment, for example, in the crystalline packing of hybrid materials.
(1) Будет разработана нейронная сеть, позволяющая проводить бинарную классификацию фермент-субстратных комплексов по наличию в них активации субстрата ферментом. В качестве входных данных нейронная сеть будет использовать двумерные карты лапласиана электронной плотности, построенные в плоскости атомов карбонильной группы субстрата и нуклеофильной частицы. Для получения такого результата необходимо: (а) провести правильный отбор объектов исследования – ферментов в соответствии с их биофизическими свойствами и биохимическими функциями и субстратов; (б) выбрать адекватный протокол многомасштабного молекулярного моделирования; (в) оптимизировать изображения двумерных карт для наиболее достоверной работы нейронной сети; (г) выбрать адекватный тип нейронной сети для надежного распознавания образов. (2) Будет разработана нейронная сеть, позволяющая определять параметры хромофоров флуоресцентных белков, относящиеся к их электронной структуре, а именно, вариацию дипольного момента при возбуждении, определяемую через разность электронных плотностей основного и возбужденного электронного состояний, с использованием только геометрических характеристик, получаемых в основном электронном состоянии. Для этого необходимо: (а) подобрать протоколы расчета геометрических параметров в молекулярно-динамических траекториях с комбинированными потенциалами КМ/ММ; (б) подобрать метод расчета вариации дипольного момента при возбуждении для создания выборок для тренировки и валидации нейросети; (в) сравнение и выбор наиболее адекватного задаче метода среди методов машинного обучения и искусственного интеллекта. (3) Будет предложен алгоритм конформационного анализа органических молекул, способных работать как с данными в газовой/жидкой фазе, так и предлагать конформации, пригодные для кристаллической упаковки. Алгоритм будет основан на (а) существующем методе глобальной оптимизации на основе роевого искусственного интеллекта, (б) полуэмпирическом квантово-химическом методе оценки внутренней энергии и (в) искусственной нейронной сети для осуществления перехода от газовой фазы к кристаллической упаковке. На основе разработанного метода будет проведено моделирование структуры и свойств гибридных материалов, содержащих в своей упаковке органические молекулы. Достижимость результатов определяется подбором коллектива специалистов, имеющих опыт решения задач в области молекулярного моделирования и искусственного интеллекта.
Программа развития Московского университета, Программа развития Московского университета |
# | Сроки | Название |
1 | 1 августа 2023 г.-31 декабря 2023 г. | Развитие комбинированных методов молекулярного моделирования и машинного обучения (НИВЦ) |
Результаты этапа: Для разработки сверточной нейронной сети, позволяющей определять наличие активации субстрата ферментом был проведен отбор модельных систем, состоящий из гидролаз различных классов. К ним относились цинк-зависимые ферменты и цистеиновая гидролаза. Были выбраны матриксная металлопротеиназа второго типа MMP-2, содержащая один катион цинка в активном центре фермента и каталитическую молекулу воды; металло-бета-лактамаза NDM-1, в активном центре которой располагается два катиона цинка и гидроксид-анион в качестве каталитической частицы, цистеиновая протеаза – основная протеаза вируса SARS-CoV2, отличающаяся от предыдущих систем тем, что нуклеофильную атаку проводит атом серы, а не атом кислорода. Для всех выбранных систем были проведены расчёты методом классической молекулярной динамики и молекулярной динамики с потенциалами КМ/ММ. После этого для фрагмента активного центра, содержащего карбонильную группу субстрата и нуклеофильную частицу, проводился расчёт карт лапласиана электронной плотности, которые использовались впоследствии для анализа с помощью сверточной нейросети. Карты лапласиана электронной плотности строились с минимальным количеством информации, а именно только изолиниями, соответствующими нулевому значению. В рамках данного этапа работы была разработана нейронная сеть, позволяющая проводить бинарную классификацию на состояния, в которых произошла / не произошла активация субстрата ферментом. Варьирование параметров нейросети позволило увеличить точность распознавания до 99.2 %. Для поиска возможных конформаций органических молекул на данном этапе работы был проанализирован ряд существующих в литературе методов глобальной оптимизации на основе роевого интеллекта. Для этого сначала была проведена работа по проверке возможности нахождения рассмотренными методами глобального минимума на поверхности потенциальной энергии. Далее была проведена оценка времени работы алгоритмов глобальной оптимизации на основе роевого интеллекта. Наилучшие результаты были получены для эволюционного алгоритма метода пчелиного роя (ArtificialBeeColony), который способен конкурировать с наилучшим на данный момент методом TPE [Andreadi, Zankov, Karpov, Mitrofanov, 2022]. Для реализации данной части работы был написан программный код, реализующий модель пчелиного роя для решения задачи оптимизации, а также полуэмпирический квантово-химический метод xtb (GFN2-xTB) [Bannwarth, Ehlert, Grimme, 2019], предлагающий быструю оценку энергии конформации системы с высокой точностью. Параллельно с этим была рассмотрена принципиальная возможность определения локальных минимумов на поверхности потенциальной энергии с использованием выбранного эволюционного подхода. Для этого после нахождения глобального минимума алгоритм запускался заново, однако уже с использованием дополнительной функции «штрафа», позволяющей избегать повторного выбора глобального минимума. Для белка EYFP семейства зеленого флуоресцентного белка проведены молекулярно-динамические расчеты с комбинированными потенциалами квантовой механики/молекулярной механики в каноническом NPT (p = 1 атм, T =300 K) ансамбле. Для набора кадров из молекулярно-динамической траектории рассчитаны изменения дипольного момента при возбуждении (Δμ), для которого известна квадратичная взаимосвязь с изменением разности энергий между основным и возбужденным электронным состояниями. Квантово-механическая подсистема описывалась методом функционала электронной плотности PBE0-D3/сс-pvdz в основном электронном состоянии, при расчёте вертикальных электронных переходов использовался нестационарный вариант метода функционала электронной плотности в варианте wB97X-D3/def2-SVP. С помощью методов регрессионного анализа и метода случайного леса построены модели расчета значений Δμ исходя из геометрических характеристик хромофора. Полученные модели хорошо предсказывают значения изменения дипольного момента при возбуждении. При этом показано, что для расчета значений Δμ по результатам молекулярной динамики недостаточно использовать только значения длин мостиковых связей в хромофоре. В минимальный набор данных для рассматриваемого белка также необходимо включать связи, соседние с мостиковыми. По результатам работы принята к публикации статья "Определение изменения дипольного момента при возбуждении в хромофоре зеленого флуоресцентного белка из траекторий молекулярной динамики с потенциалами км/мм методами машинного обучения" в Журнал физической химии. Разработан общедоступный WEB-сервис, позволяющий определять наличие активации атома углерода в sp2 гибридном состоянии в органических соединениях. На данном этапе сервис позволяет определять активацию субстратов, содержащих карбонильную группу в гидролазах, однако может быть использован и для обычных органических реакций, начинающихся с нуклеофильного присоединения. Сервис доступен по адресу: https://lcc.chem.msu.ru/eniad/checkreactivity.php. В результате проведенных работ показано, что использование метода глобальной оптимизации геометрии молекул, основанного на роевом интеллекте и учете внутримолекулярных параметров, таких как торсионные (двугранные) углы между атомами, можно эффективно использовать для прогнозирования как изолированных конформеров в газовой фазе, так и конформации молекул в периодических молекулярных кристаллах. Предложенный в исследовании алгоритм искусственного интеллекта по сравнению с другими 15 алгоритмами позволяет наиболее эффективно осуществлять поиск устойчивых конформеров органических катионов, учитывая все возможные варианты геометрии и основываясь на поиске глобального минимума энергии. Кроме того, в результате исследования впервые показана эффективная работа алгоритма роевого интеллекта для предсказания не только конформации молекул в газовой фазе, но и в периодических молекулярных кристаллах. Результаты работы алгоритма апробированы на экспериментальных базах данных о конформациях молекул в газовой фазе и возможных полиморфных модификациях кристаллических структур, расшифрованных экспериментально. Таким образом, в результате выполнения плана работ текущего этапа проекта, несмотря на ограниченный набор верификационных данных по органическим молекулам, успешно решена задача поиска наиболее энергетически выгодной геометрии молекул как в газовой фазе, так и в органических кристаллах. Данная работа станет важным шагом на пути к решению открытого вопроса о предсказанию законов упаковки органических молекул в кристаллах. По результатам выполненной работы подготовлена рукопись "Artificial bees collect diverse conformers of small organic molecules" (авторы A. Smirnova, M. Yablonskiy, E. Marchenko, V. Korolev, N. Andreadi, A. Mitrofanov) и депонирована на arxiv репозитории. | ||
2 | 1 января 2024 г.-31 декабря 2024 г. | Развитие комбинированных методов молекулярного моделирования и машинного обучения (НИВЦ) |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".