Автоматическая кластеризация новостей - дипломная работа | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Научный руководитель: Добров Б.В.
Автор: Павлов Андрей Михайлович
Тип: Специалист
Организация, в которой проходила защита: МГУ имени М.В. Ломоносова
Год защиты: 2007
Аннотация: В дипломной работе А.М.Павлова исследуются методы описания структуры новостных кластеров – совокупностей новостных сообщений, посвященных описанию одного события. Ежедневно даже в основных информационных источниках возникает десятки тысяч сообщений. Организация таких специфических коллекций документов становится возможной только при использовании автоматических методов. В качестве методов кластеризации новостей (детали методов, используемых в реальных системах Яндекс, Рамблер, Google, Новотека и др., не опубликованы) обычно используются методы кластеризации в векторном пространстве лемм (нормализованных словоформ) на основе метрик близости. Такой механистический подход порождает определенные проблемы контроля качества кластера (замешивание в один кластер новостей о разных событиях), выбор заголовка кластера (заголовок должен соответствовать содержимому кластера). Актуальной является определение иерархической структуры кластера, вторичное использование описания кластера (например, Яндекс на основе внутреннего описания кластера посылает запрос из трех лемм для определения «мнений» - сообщений в проиндексированных блогах). Дипломная работа посвящена альтернативному методу описания новостных кластеров – в виде булевских формул над леммами и понятиями тезауруса РуТез. Наличие такого представления помогает решать указанные проблемы механистического подхода за счет прозрачного контроля за составом кластера. Выполненные ранее вручную эксперименты позволили сформулировать гипотезу о возможности построения достаточно простых формул, описывающих реальные новостные кластеры.
Добавил в систему: Добров Борис Викторович

	ИСТИНА	Войти в систему Регистрация
	Интеллектуальная Система Тематического Исследования НАукометрических данных
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

Интеллектуальная Система Тематического Исследования НАукометрических данных

Автоматическая кластеризация новостейдипломная работа (Специалист)