ИСТИНА |
Войти в систему Регистрация |
|
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
Увеличивающиеся размеры и сложность суперкомпьютеров предъявляют все более жесткие требования к системам мониторинга, ставшим неотъемлемой частью этого класса машин. При этом цели мониторинга могут быть разными. С одной стороны, очень важная цель – отслеживание сбоев, которые могут привести к неправильной работе программ или к выходу из строя компонентов вычислительной системы. С другой стороны, усложнение архитектуры суперкомпьютеров делает крайне сложным написание эффективных программ, а значит, нужен постоянный контроль эффективности, чтобы дорогостоящие ресурсы суперкомпьютера использовались бы с должной степенью отдачи. И та, и другая задача требуют отслеживания десятков параметров с каждого вычислительного узла с периодом порядка единиц секунд, а в перспективе и долей секунды. Такие потоки информации с тысяч узлов современных систем, и с сотен тысяч и миллионов для перспективных систем, требуют новых подходов к организации систем мониторинга. В результате выполнения проекта предполагается разработать принципы построения сверхмасштабируемых систем мониторинга для суперкомпьютеров петафлопсного и экзафлопсного уровня производительности. Будет предложена архитектура варианта такой системы, разработанная с учетом указанных принципов. Основой архитектуры станет модульность для облегчения адаптации под новые вычислительные системы; децентрализация и перенос части обработки на вычислительные узлы, для разгрузки центральной части системы при создании минимальной нагрузки на узлах; возможность распределения потоков данных как по частям вычислительной системы, от которой получены данные, по типу предварительной обработки (прореживание, сравнение с порогами), по цели, с которой производится мониторинг (отслеживание отказов, контроль эффективности). На основе разработанных принципов и архитектуры планируется разработать прототип системы мониторинга и апробировать его в суперкомпьютерном комплексе Московского университета (суперкомпьютеры «Чебышев», «Ломоносов»).
В рамках работ по проекту разработаны принципы построения сверхмасштабируемых систем мониторинга для суперкомпьютеров. Эти принципы включают в себя модульность системы мониторинга во всех ее аспектах: модульность получения данных, модульность обработки данных мониторинга и модульность компонент, отвечающих за связи частей системы мониторинга между собой. Для обеспечения применимости системы мониторинга на больших вычислительных системах и обеспечения решения в рамках единого комплекса задач по отслеживанию состояния оборудования и мониторинга производительности нужно обеспечить: - возможность направлять разные потоки данных по разным путям или копии одних и тех же данных нескольким получателям; - динамическую переконфигурацию режимов работы системы мониторинга (путей передачи данных, параметров сбора данных, путей обработки данных); - возможность вычисления метрик производительности для отдельных задач во время сбора данных, без записи их на диск с последующим считыванием; - перенос части обработки данных мониторинга на вычислительные узлы. На основе указанных принципов были разработаны прототипы каркаса системы мониторинга и базовые ее компоненты. Эти компоненты были апробированы на вычислительных системах из состава суперкомпьютерного комплекса МГУ.
грант РФФИ |
# | Сроки | Название |
1 | 1 января 2013 г.-31 декабря 2013 г. | Разработка принципов построения сверхмасштабируемых систем мониторинга программно-аппаратной среды суперкомпьютеров |
Результаты этапа: Разработаны принципы построения систем мониторинга, пригодных для выполнения всех задач, возникающих при анализе данных о состоянии программно-аппаратной среды суперкомпьютеров, в том числе тех, которые не могут быть решены при помощи существующих систем. Выделены принципиально важные особенности мониторинга суперкомпьютеров, учитывающие текущие особенности архитектуры и тенденции развития этой области. Сформулированы требования к системам мониторинга, следование которым позволит решать стоящие перед такими системами задачи. В соответствии с этими принципами разработана архитектура такой системы мониторинга, позволяющей гибко менять конфигурацию и настройку для решения всего спектра задач мониторинга. Начата реализация прототипа системы мониторинга в соответствии с разработанной архитектурой. Проведено тестирование прототипа на суперкомпьютере «Ломоносов», показавшее хорошую производительность и пригодность прототипа к работе на больших современных вычислительных системах. | ||
2 | 1 января 2014 г.-31 декабря 2014 г. | Разработка принципов построения сверхмасштабируемых систем мониторинга программно-аппаратной среды суперкомпьютеров |
Результаты этапа: Исследованы методы распределения данных мониторинга между компонентами серверной части. На основе проведенного исследования предложен новый подход к мониторингу производительности потоков задач на суперкомпьютерах, предполагающий вычисление метрик производительности задач не лету, без промежуточного сохранения данных. Предложена архитектура построения масштабируемых систем мониторинга с распределенной серверной частью на основе создаваемого прототипа. Разрабатываемый прототип расширен для использования нескольких ядер процессора. Реализована функциональность, необходимая для активного режима мониторинга. Увеличен набор получаемых данных, включая разработку датчиков для получения информации о загрузке графических ускорителей. Проведено тестирование прототипа на суперкомпьютере «Ломоносов», а также исследована масштабируемость и накладные расходы компонент создаваемой системы. Проведенные исследования показали пригодность разрабатываемого прототипа для создания систем мониторинга существующих и перспективных суперкомпьютеров. | ||
3 | 1 января 2015 г.-31 декабря 2015 г. | Разработка принципов построения сверхмасштабируемых систем мониторинга программно-аппаратной среды суперкомпьютеров |
Результаты этапа: Будет разработан и реализован механизм для получения метрик производительности всех задач выполняющихся на суперкомпьютере. Будет проведен анализ ресурсов, необходимых для анализа производительности больших потоков задач на реальных вычислительных системах. Будет проведен анализ масштабируемости предложенного решения. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".