Аннотация:Суперкомпьютерный центр — крайне сложная и дорогостоящая система, в состав которой входит огромное число компонентов различного типа: вычислительные модули, сетевое оборудование, хранилище данных, подсистема обеспечения питанием, климатическая подсистема, ОС, библиотеки, компиляторы, система управления потоками заданий, приложения пользователей и т. п. Каждый из этого множества компонентов потенциально ненадежен, может в любой момент начать работать неправильно или вообще перестать функционировать, поэтому на любой отказ должна оперативно последовать реакция: оповещение администраторов, перезапуск системного процесса, экстренное отключение оборудования и т. п. В НИВЦ МГУ разрабатывается программный комплекс Octotron, предназначенный для решения двух важнейших для любого суперкомпьютерного центра задач: обеспечения максимальной сохранности оборудования и предоставления пользователям максимального объема доступных в данный момент вычислительных ресурсов.