Алгоритм автоматизированной генерации обучающей выборки для решения задачи выявления семантической близости между парой ключевых слов методами машинного обучениястатья
Статья опубликована в журнале из списка RSCI Web of Science
Аннотация:В настоящее время машинное обучение является эффективным подходом к решению множества задач информационно-аналитических систем. Для использования таких подходов требуется обучающее множество примеров. Сбор обучающего набора данных является обычно трудоемким процессом. Как правило, для его реализации требуется участие нескольких экспертов в предметной области, для которой собираются тренировочное множество. Более того, для некоторых задач, в число которых входит и задача определения семантической близости пар ключевых слов, является сложным даже правильно составить инструкцию для экспертов для адекватной оценки тестируемых примеров. Причина таких затруднений заключается в том, что семантическая близость - субъективная величина и сильно зависит от области применения, контекста, человека и задачи. В статье представлены результаты исследований на направлении поиска моделей, алгоритмов и программных средств для автоматизированного формирования объектов обучающей выборки в задаче определения семантической близости пары слов. Кроме того, модели, построенные по автоматизированной обучающей выборке, позволяют решать не только задачу определения семантической близости, но и произвольную задачу классификации ребер в графе. Методы, использованные в работе, основаны на теоретико-графовых алгоритмах.