Аннотация:Предложен подход к анализу случаев аварийного завершения заданий, выполняемых на суперкомпьютере «Ломоносов-2». Подход нацелен на поиск первопричин этих ситуаций путем выявления возможных связей сбоев приложений с событиями, происходящими в это время как на вычислительных узлах, задействованных для выполнения задания, так и на суперкомпьютере в целом. В качестве источников информации о событиях рассматриваются системные журналы вычислительных узлов и служебных серверов суперкомпьютера. Представлены первые результаты анализа, показавшие перспективность предложенного подхода.