ИСТИНА |
Войти в систему Регистрация |
|
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
Программный модуль реализован в виде пакета программ, с использованием которых осуществляется выборка и извлечение объектов анализа (вычислительные задания, представленные в виде набора выделенных параметров и метрик), проведение анализа временных параметров (оценка распределения и прогнозирование времени завершения вычислительных заданий), а также рассылка полученных результатов в соответствующие аналитические системы/службы. Работа с источниками данных осуществляется «коллектором»: извлечение данных из системы управления потоками заданий и загрузкой, которые вносят значительный вклад во время обработки анализируемых заданий (в качестве инструментов извлечения и обработки сырых данных для нормирования временных параметров используются утилиты Apache Sqoop и Pig соответственно). Анализ данных осуществляется «предиктором»: создание предиктивной модели и использование данной модели для генерации предсказаний времени выполнения выбранных заданий на основе методов машинного обучения (используется программная платформа распределенной обработки данных Apache Spark в среде распределенной файловой системы Hadoop Distributed File System и библиотека машинного обучения Spark.MLlib). Распределение полученных результатов осуществляется «дистрибьютером»: пост-обработка с использованием статистического анализа и рассылка выходных/результирующих данных соответствующим системам (используется API анализируемой и контролирующей систем). Конфигурирование пакета программ позволяет определить рабочую выборку данных и соответствующие ключевые параметры/атрибуты, а также настроить параметры модели.