Теория и практика использования тонкого системного мониторинга для повышения качества суперкомпьютерных приложенийНИР

Theory and practice of fine system monitoring usage to enhance supercomputer applications

Источник финансирования НИР

грант РФФИ

Этапы НИР

# Сроки Название
1 25 октября 2019 г.-15 сентября 2020 г. Теория и практика использования тонкого системного мониторинга для повышения качества суперкомпьютерных приложений
Результаты этапа: Разработана и экспериментально обоснована реализуемость концепции динамической реконфигурации систем мониторинга для суперкомпьютеров пост-петафлопсного уровня производительности. Разработаны подходы к реализации динамического изменения набора собираемых данных и периода опроса датчиков. На основе разработанных подходов возможность динамического изменения набора собираемых данных и периода опроса датчиков реализована в системе мониторинга DiMMon. Реализовано сопряжения системы DiMMon и менеджера ресурсов SLURM для передачи запросов на изменение конфигурации в систему мониторинга. Определены возможные варианты динамического изменения конфигурации системы мониторинга для исследования параллельных программ, и реализована возможность динамической конфигурации системы мониторинга в соответствии с определенными вариантами.
2 1 февраля 2021 г.-15 сентября 2021 г. Теория и практика использования тонкого системного мониторинга для повышения качества суперкомпьютерных приложений
Результаты этапа: В рамках работ по проекту была разработана концепция и сформулированы требования к реконфигурируемой системе мониторинга. Выделены конфигурации агента мониторинга на вычислительном узле: нормальная конфигурация; отключение опроса аппаратных счетчиков процессора; полное отключение мониторинга на вычислительном узле; увеличенная частота опроса датчиков. В системе DiMMon была реализована возможность реконфигурации системы в соответствии с указанными конфигурациями. Пользователям суперкомпьютера была предоставлена возможность указывать желаемую конфигурацию систем мониторинга на время выполнения их задач. Для этого было реализовано сопряжение менеджера ресурсов SLURM с системой DiMMon. Было реализовано сохранение данных в базе данных для хранения временных рядов InfluxDB. Были реализованы средства визуализации на основе системы Grafana. Визуализация данных может производиться в разрезе задач и вычислительных узлов с возможностью перехода между режимами. При реализации были учтены переданные индийской стороной проекта сведения об их вычислительных системах для возможности развертывания полученных решений на системах партнера. Все реализованные возможности были развернуты для суперкомпьютера «Ломоносов-2». Была проведена оценка получаемого потока данных и оценена масштабируемость полученного решения.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".