Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системыНИР

Development and implementation of the supercomputer codesign principles to enhance cross-cutting digital technologies and create a high performance computing platforms for predictive modeling and application of artificial intelligence: from the microcosm to living organisms and the Earth system

Источник финансирования НИР

грант РНФ

Этапы НИР

# Сроки Название
1 17 марта 2021 г.-31 декабря 2021 г. Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системы
Результаты этапа: Модели, методы и средства высокопроизводительных вычислений. Основной целью данной работы является разработка системы оценок, которая позволит оценивать и сравнивать качество использования вычислительных ресурсов в суперкомпьютерных приложениях. Для каждого типа ресурсов предполагается разработать по одной оценке, которая позволит быстро и достаточно точно анализировать общее качество работы с этим типом в рамках отдельных заданий, пользователей, проектов, организаций или прикладных пакетов; при этом собираться оценки будут автоматически для всех выполняющихся заданий. Рассматриваются следующие типы вычислительных ресурсов: процессоры, подсистема памяти, MPI сеть, файловая система (ввод-вывод), графические ускорители. На данном этапе работ была разработана первая версия оценок для рассматриваемых типов ресурсов. Так, оценки качества использования процессоров и подсистемы памяти, которые вычисляются на основе значений аппаратных счетчиков, учитывают долю процессорного времени, во время которого процессор был полностью загружен выполнением полезной работы или простаивал в ожидании данных из памяти, соответственно. Оценки MPI сети и ввода-вывода построены на другом принципе – они учитывают, какие проблемы с производительностью были автоматически обнаружены в выполняющихся приложениях, и насколько серьезно эти проблемы влияют на производительность приложений. Для анализа качества работы с графическими ускорителями были разработаны новые оценки, которые позволяют адаптировать идеи, заложенные в оценках процессоров и подсистемы памяти, для применения на GPU устройствах. Была выполнена реализация и апробация некоторых оценок на суперкомпьютере Ломоносов 2. В частности, был реализован в тестовом режиме модуль системы мониторинга для вычисления оценок качества использования процессоров и подсистемы памяти. Проведенная апробация показала, что предложенные оценки показывают достаточную точность и поэтому подходят для целей данного проекта. Был также реализован автоматический сбор оценок качества использования сети MPI и ввода-вывода для всех задач, выполняющихся на суперкомпьютере Ломоносов-2. Анализ собранной статистики по данным оценкам позволил сделать некоторые интересные выводы. Например, был обнаружен пользователь прикладного пакета, у которого оценка работы с MPI на порядок хуже, чем у всех других пользователей данного пакета. Причина этого заключается, судя по полученным данным, в слишком маленьком размере MPI пакетов, что приводило к существенным накладным расходам. Были также разработаны методы оперативного информирования пользователей и администраторов о качестве выполнения суперкомпьютерных приложений и систем, а также механизмы организации обратной связи с данными участниками, вовлеченными в работу суперкомпьютера. Было проведено детальное рассмотрение возможных вариантов, и в результате были разработаны наиболее подходящие в нашем случае методы, которые предполагают применение различных способов коммуникации в зависимости от оперативности необходимого взаимодействия и роли участников. Помимо этого, были продуманы возможные способы интеграции данных методов в пользовательские и административные технологические циклы, что позволит не только информировать пользователей и администраторов о качестве выполнения приложений, но и по возможности прилагать усилия для повышения этого качества. Физика элементарных частиц. Нами проводились исследования в рамках квантовой хромодинамики, т.е. современной теории сильных взаимодействий, в рамках которой процессы с протонами и нейтронами, а также другими сильно взаимодействующими частицами описываются взаимодействием кварков и глюонов. Аналитически вычислены поправки четвёртого порядка по константе связи в такие фундаментальные функции теории, как фотон-кварковый и Хиггс-глюонный форм-факторы в случае диаграмм, содержащих безмассовую фермионную петлю. Другие исследования по проекту, относящиеся к физике элементарных частиц, производились в рамках квантовой электродинамики. Нами аналитически вычислены так называемые двухпетлевые мастер-интегралы для второго типа планарных вкладов в рассеяние электронов и позитронов. Эти мастер-интегралы представляют собой базис в линейном пространстве всех фейнмановских интегралов данного типа, так что любой из интегралов в этом пространстве может быть выражен в виде некоторой линейном комбинации мастер-интегралов. Подобные результаты не могли бы быть получены без применения ранее разработанных нами программ FIRE и FIESTA, а также проведения оптимизированных вычислений с применением высокопроизводительных серверов (на данный момент без использования суперкомпьютеров). Разрабатываемые нами программы имеют как частные версии, так и публичные, доступные по следующим адресам: https://bitbucket.org/feynmanIntegrals/fiesta https://bitbucket.org/feynmanIntegrals/fire Искусственный интеллект и автоматическая обработка текстов. До недавнего времени большое внимание исследователей уделялось анализу тональности относительно простых видов текстов с точки зрения выражаемой тональности: отзывы пользователей или посты пользователей в Твиттере (твиты). Автоматический анализ тональности осуществляется с помощью двух основных подходов или их комбинирования, а именно методов машинного обучения и методов, основанных на словарях и правилах. В настоящее время удается в значительной мере повысить качество в задачах анализа тональности на основе глубоких нейронных, однако для этого требуются размеченные обучающие коллекции, которые часто отсутствуют в общественно-политической области, отличающейся большим разнообразием обсуждаемых явлений. В ходе первого года проекта собраны текстовые коллекции для исследования позиций по теме и аргументации, создан программный интерфейс для разметки высказываний по релевантности темам и позициям авторов по темам, на основе созданного интерфейса размечены датасеты, в которых выполнена разметка по релевантности темам и по позициям авторов по темам. Выполнено тестирование методов машинного обучения на основе созданных датасетов с разметкой мнений и проведено тестирование методов машинного обучения в задаче извлечения релевантности и мнений на основе англозычных датасетов. Суперкомпьютерный кодизайн для моделей Земной системы. В рамках проекта разработана вычислительная технология вихреразрешающего (LES, Large-Eddy Simulation) моделирования атмосферного пограничного слоя на параллельных вычислительных системах гетерогенной архитектуры. В численной модели используются консервативные конечно-разностные схемы второго и четвертого порядка точности для аппроксимации по пространству на прямоугольных сетках. Применение смешанного локализованного замыкания динамического типа позволяет воспроизвести вертикальное распределение скорости ветра и потенциальной температуры в квазистационарных устойчиво-стратифицированных и конвективных пограничных слоях при относительно грубом пространственном разрешении. Программная реализация основана на гибридном MPI-OpenMP-CUDA подходе и допускает выполнение расчетов как на центральных, так и графических процессорах. Разработанная вычислительная технология дает возможность рассматривать задачи численного моделирования атмосферного пограничного слоя и его суточной динамики на вычислительных сетках большой размерности и на современных суперкомпьютерных системах. В данном отчёте представлена новая версия схемы поверхности суши ИВМ РАН-МГУ, в которой термогидродинамическая модель речной сети встроена в структуру параллельного выполнения модели с использованием двух уровней параллелизма: первый предполагает независимую обработку речных бассейнов на основе MPI, а второй использует технику OpenMP для распараллеливания расчёта рек одного порядка Стралера. Численные эксперименты были проведены для восточноевропейской расчётной области с разрешением 0,5°×0,5°. MPI-реализация модели почвы основана на традиционной равномерной долготно-широтной декомпозиции области интегрирования модели, унаследованной от модели атмосферы. Показано, что параллельная эффективность модели почвы на 1-144 ядрах составляет 0.52-0.79 и ограничивается наличием океанической области, а также дисбалансом вычислительной нагрузки между почвенными колонками, обусловленным наличием/отсутствием снежного покрова и количества итераций для температуры поверхности, необходимых для обновления вертикальных распределений теплофизических характеристик на шаге по времени. Ускорение модели реки на уровне MPI не превысило 4 раза и определяется размером самого большого речного бассейна в расчётной области (Волга), тогда как на уровне OpenMP потенциал ускорения моделирования большого речного бассейна близок к количеству используемых потоков. Ускорению на уровне OpenMP в наших численных экспериментах препятствовало занижение порядков рек при грубом разрешении модели деятельного слоя (рекомендуемая производительность для Волжского бассейна достигается при 4-6 потоках с ускорением в 2,5-3 раза). Дальнейшее развитие параллельного кода включает MPI+OpenMP реализацию модели почвы, оптимизацию MPI-декомпозиции области интегрирования для модели почвы при наличии поверхности океана и дальнейшую настройку MPI+OpenMP конфигурации модели речной системы. Биоинформатика и моделирование живых систем. С использованием принципов суперкомпьютерного дизайна реализована высокоэффективная связка модуля метадинамики и молекулярной динамики на суперкомпьютере “Ломоносов 2” для проведения метадинамических расчётов, в том числе на графических ускорителях. Разрабатываются протоколы интеграции докинга, молекулярной динамики, метадинамики, вычислительной алхимии и новых алгоритмов структурной фильтрации для высокопроизводительного компьютерного скрининга и молекулярного дизайна лекарственных препаратов. Это позволило приступить к разработке новых ингибиторов нейраминидазы вируса гриппа, направленных на преодоление лекарственной устойчивости к существующим препаратам. Высокоэффективные вычисления помогли построить модель конформационной пластичности гемагглютинина вируса гриппа, включающая структурный переход белковой молекулы в “развернутое” состояние трех α-спиралей, необходимое для атаки клетки хозяина, которая будет пригодна для изучения функционирования целого класса патогенов, содержащих белки слияния I класса, включая COVID-19. В ходе работы определены структурные перестройки центральной части поверхностного белка, ответственного за слияние с мембраной клетки хозяина. Произведено моделирование спирализации отдельных субъединиц, из которых складывается центральный фрагмент стволового домена гемагглютинина. При моделировании было обнаружено, что при изменении конформации отдельных субъединиц, их спирализация может предшествовать выпрямлению в конечное состояние. Выпрямление может происходит с использованием особого шарнира в центральной области каждой из субъединиц. Из результатов моделирования становится ясно, что структурный переход каждой из трех субъединиц может быть разобщены во времени Спирализация первой субъединицы способна облегчать переход последующих субъединиц и стабилизировать промежуточные конформации. В ходе работы над проектом также установлены подробности каталитического механизма фермента 2-гидроксибифенил-3-монооксигеназы. Фермент был выделен из почвенной бактерии Pseudomonas azelaica, он позволяет этой бактерии использовать токсичный фунгицид 2-гидроксибифенил в качестве источника углерода и энергии. Механизм работы этого фермента изучен недостаточно, хотя этот фермент представляет как фундаментальный интерес для понимания биодеградации загрязнителей окружающей среды, так и имеет практическую значимость как катализатор для фармацевтической промышленности. Фермент катализирует реакцию окисления 2-гидроксибифенила в 2,3-дигидроксибифенил с помощью кислорода воздуха (добавляет вторую гидроксильную группу в орто-положение к первой), для его работы также требуются коферменты FAD и NADH. С использованием методов молекулярного моделирования на суперкомпьютере "Ломоносов-2" удалось существенно продвинуться в понимании механизма этого фермента: с помощью "разведывательной" метадинамики и методов машинного обучения уточнено положение гибких участков в активном центре; впервые установлен центр связывания кофермента NADH и проведено моделирование полуреакции восстановления активной части FAD с помощью NADH с использованием комбинированного метода квантовой механики, молекулярной механики и метадинамики. Другой задачей выполняемого этапа является моделирование каталитического механизма действия пенициллинацилазы из Escherichia coli и получение ее мутантов с измененными функциональными свойствами. Использование пенициллинацилаз в промышленных процессах производства бета-лактамных антибиотиков позволяет перейти к экологически безопасным технологиям, снижению энергоемкости, повышению качества и стоимости целевых продуктов. В настоящее время наиболее непонятной стадией реакций, катализируемых пенициллинацилазами, является превращение ацилферментного интермедиата. При моделировании была определена траектория доставки нуклеофила в активный центр и роль аминокислотных остатков в координации его аминогруппы для нуклеофильной атаки. Это поможет выявить пути целенаправленного изменения структуры фермента с целью дизайна более эффективных форм биокатализатора для синтеза. К настоящему моменту выявлены два аминокислотных остатка, мутации которых приводят к увеличению синтетической активности пенициллинацилазы. Высокопроизводительное моделирование и использование принципов суперкомпьютерного кодизайна при интеграции инструментов биоинформатики также помогли при изучении структурных изменений белков вируса гриппа (гемагглютинина и нейраминидазы) во время их адаптации к иммунной системе хозяина. Для эффективного распространения гриппа требуется координированное действие двух белков: гемагглютинина, обеспечивающего селективную колонизацию патогена на рецепторах хозяина, и нейраминидазы, способной гидролизовать рецепторы хозяина для отделения новообразовавшихся вирионов от клетки. Получено выравнивание последовательностей гемагглютининов вируса гриппа, обнаруженных у человека, птиц или свиней, и определен круг аминокислотных остатков белка, непосредственно контактирующих с устойчивыми топологиями структур олигосахаридных субстратов. Полученное выравнивание использовано для классификации нейраминидаз по специфичности к субстратам. Сформированные группы позволили определить аминокислотные остатки в нейраминидазах, ответственные за сохранение свойств специфичности в подгруппах. Обнаружены и смоделированы структурные изменения в четырех позициях в нейраминидазе одного из штаммов птичьего вируса, способного заражать человека.
2 1 января 2022 г.-31 декабря 2022 г. Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системы
Результаты этапа:
3 1 января 2023 г.-31 декабря 2023 г. Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системы
Результаты этапа:
4 1 января 2024 г.-31 декабря 2024 г. Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системы
Результаты этапа:

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".