ИСТИНА |
Войти в систему Регистрация |
|
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
1. Для решения задачи построения программных средств определения текстового спама разработан новый алгоритм обнаружения текстового спама на основе оценки разнообразия тематик документа. 2. Теоретически и численно обоснована применимость разработанного алгоритма и программной системы для обнаружения текстового спама, порожденного генераторами текстов на основе цепей Маркова, широко используемыми для создания поискового спама. 3. Разработан комбинированный алгоритм классификации текстового спама на основе анализа большого числа факторов, моделирующих связность, стиль, читаемость текстов, а также учета результатов алгоритма оценки разнообразия тематик документа. 4. Реализована программная система определения поискового спама. Получены более высокие характеристики классификации поискового спама на стандартном наборе данных, по сравнению с известными методами. Разработанная система позволяет обрабатывать документы в режиме близком к реальному времени.