Разработка принципов построения и реализация прототипа системы обеспечения оперативного контроля и эффективной автономной работы суперкомпьютерных комплексовстатья

Статья опубликована в журнале из перечня ВАК

Работа с статьей


[1] Разработка принципов построения и реализация прототипа системы обеспечения оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов / А. С. Антонов, В. В. Воеводин, В. В. Воеводин и др. // Вестник Уфимского государственного авиационного технического университета. — 2014. — Т. 18, № 2. — С. 227–236. Современный суперкомпьютерный комплекс – это сложная, дорогостоящая и крайне энергонасыщенная система. Каждый из компонентов комплекса потенциально ненадежен и может выйти из строя практически в любой момент. Последствия могут быть различными, от завершения отдельных заданий до выхода из строя всего комплекса, поэтому необходим оперативный контроль, позволяющий гарантировать сохранность компонентов и эффективную автономную работу суперкомпьютера в целом. В НИВЦ МГУ разрабатывается программный комплекс для оперативного контроля и автоматического реагирования на аварийные ситуации в работе суперкомпьютерных систем. В основу комплекса положена модель суперкомпьютерной системы, представленная в виде мультиграфа. Такой подход позволяет обеспечить полноту определения аварийных ситуаций, а также вести учет накопленного опыта эксплуатации больших и сверхбольших вычислительных систем. Работа рекомендована Программным комитетом Международной суперкомпьютерной конференции Научный сервис в сети Интернет: все грани параллелизма.

Публикация в формате сохранить в файл сохранить в файл сохранить в файл сохранить в файл сохранить в файл сохранить в файл скрыть