Аннотация:Работа посвящена методам частичного обучения (semisupervised learning). Такие методы не просто решают задачи классификации (дана обучающая выборка, для которой известно к какому классу принадлежит каждый её представитель, требуется построить алгоритм, который для нового объекта определяет его классификацию), а учитывают особенности контрольной выборки (множества объектов, на которых будет тестироваться алгоритм). В последние годы такие «нестандартные» задачи классификации стали широко распространенными. Связано это с тем, что часто алгоритм приходится обучать (настраивать его параметры) на одних данных, а пользоваться алгоритмом – при классификации данных, которые по некоторым своим характеристикам (например, статистическим параметрам выборок) сильно отличаются от исходных. Типичный пример подобной задачи – анализ активности головного мозга (она может меняться даже в течение дня, кроме того, электроды, которые снимают сигналы – показатели активности – не удаётся настроить на снятие показаний с одних и тех же нейронов).
В данной работе решается прикладная задача фильтрации спама. Отметим, что решается она не в общем виде, а в несколько упрощённом: как классификация текстов (тела письма) на два класса («спам» и «не спам»). В таком виде задача была представлена на Международном соревновании учёных-прикладников «ECML/PKDD 2006 Challenge». Перед Чучварой А.И. была поставлена цель – изучить алгоритмы, которые заняли первые места в соревновании, реализовать их на ЭВМ в среде MatLab, модифицировать для применения на больших массивах данных и для получения высокого качества классификации.