ИСТИНА |
Войти в систему Регистрация |
|
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
Поддержка автономного функционирования суперкомпьютерного центра — одна из важнейших задач, с которой сталкиваются его владельцы и администраторы. Этот же вопрос встал и перед нами в рамках работ по обеспечению эффективной работы Суперкомпьютерного комплекса МГУ. Анализ деятельности суперкомьютерных центров как в России, так и за рубежом показал, что каждый решает эту задачу своими силами, создавая индивидуальные и непереносимые комплексы или используя закрытые системы от поставщика суперкомпьютера. Нами был предложен метод контроля на основе модели суперкомпьютерного комплекса, представленной в виде расширенного мультиграфа. Вершинами графа являются физические и логические компоненты суперкомпьютера, а рёбрами — связи между компонентами. C вершинами и связями связан набор атрибутов – характеристик состояния компонентов (температура процессора, объем памяти, число заданий в очереди и т.п.). Значения атрибутов поставляются штатными системами мониторинга суперкомпьютера либо получаются обращением к внешним интерфейсам компонентов. При изменении значений атрибутов проверяются зависимые от них условия, определяющие факт наличия нештатной ситуации. В случае наличия такой ситуации вызывается определенный набор реакций, например уведомление администраторов и выключение сбойного оборудование. На основе данного подхода была разработана система Октотрон, в настоящее время осуществляющая контроль работы суперкомпьютеров МГУ. Код системы доступен под открытой MIT лицензией на сайте https://github.com/srcc-msu/octotron . Проект выполняется при финансовой поддержке Министерства образования и науки, Соглашение № 14.607.21.0006 (уникальный идентификатор RFMEFI60714X0006)