Аннотация:В дипломной работе А.М.Павлова исследуются методы описания структуры новостных кластеров – совокупностей новостных сообщений, посвященных описанию одного события. Ежедневно даже в основных информационных источниках возникает десятки тысяч сообщений. Организация таких специфических коллекций документов становится возможной только при использовании автоматических методов. В качестве методов кластеризации новостей (детали методов, используемых в реальных системах Яндекс, Рамблер, Google, Новотека и др., не опубликованы) обычно используются методы кластеризации в векторном пространстве лемм (нормализованных словоформ) на основе метрик близости.
Такой механистический подход порождает определенные проблемы контроля качества кластера (замешивание в один кластер новостей о разных событиях), выбор заголовка кластера (заголовок должен соответствовать содержимому кластера). Актуальной является определение иерархической структуры кластера, вторичное использование описания кластера (например, Яндекс на основе внутреннего описания кластера посылает запрос из трех лемм для определения «мнений» - сообщений в проиндексированных блогах).
Дипломная работа посвящена альтернативному методу описания новостных кластеров – в виде булевских формул над леммами и понятиями тезауруса РуТез. Наличие такого представления помогает решать указанные проблемы механистического подхода за счет прозрачного контроля за составом кластера. Выполненные ранее вручную эксперименты позволили сформулировать гипотезу о возможности построения достаточно простых формул, описывающих реальные новостные кластеры.