Аннотация:В дипломной работе рассматривается актуальная задача оперативной помощи исследователю, который осуществляет поиск интересных ему статей в современной электронной библиотеки типа ACM Digital Library (далее ACM DL) или Google Scholar (GS). В таких библиотеках для каждой публикации доступны ее метаданных, сведения о статьях, которые на нее ссылаются, данные о статьях, на которые она ссылается (ACM DL) или связанных с ней (GS). То есть множество научных публикаций образуют мульти-сеть связей, в которой исследователь заинтересован выбрать список наиболее значимых для его потребностей. Здесь предполагается, что целью исследователя является формирование списка публикаций для последующего глубокого изучения.
В дипломной работе А.О. Савиновских эту задачу предлагается решать с использованием специального прокси (промежуточного) интерфейса для ACM DL. Исследователь, передвигаясь по графу научных публикаций, имеет возможность проставить оценку релевантности той или иной публикации своим информационным потребностям. В результате естественным путем образуются множества положительных и отрицательных примеров, что с некоторого момента позволяет применить методы машинного обучения и формировать список рекомендаций для ускорения обхода большого графа.
В дипломе ставится задача машинного обучения классификации как двухэтапная задача оптимизации. На первом этапе на обучающем множестве подбираются параметры задачи, на втором этапе на тестовом множестве (в работе – «основном») параметры метода машинного обучения (в том числе выбор метода).