Методы решения задач анализа данных с категориальными (факторными) признакамитезисы доклада

Работа с тезисами доклада


[1] Дьяконов А. Г., Головина А. М. Методы решения задач анализа данных с категориальными (факторными) признаками // XXII Международная конференция Математика. Экономика. Образование. VIII Международный симпозиум Ряды Фурье и их приложения. Междисциплинарный семинар Математические модели и информационные технологии в науке и производстве. Тезисы докладов. — Изд-во СКНЦ ВШ ЮФУ Ростов н/Д, 2014. — С. 116–116. В докладе даётся обзор методов решения задач классификации и регрессии с категориальными признаками. Категориальный (факторный, номинальный) признак – это признак, значения которого обозначают принадлежность объекта к какой-то категории (например, национальность, профессия, идентификационный номер, тарифный план, издательство и т.п.). В последние годы появились задачи, в которых почти все или даже все признаки категориальные. Одна из таких задач используется как тестовая для алгоритмов из обзора: задача Международного соревнования <<Amazon.com – Employee Access Challenge>> о построении рекомендательной системы для службы безопасности. В докладе рассматриваются следующие модели алгоритмов: {Линейные алгоритмы}, в которых ответ выражается в виде функции от линейной комбинации признаков нового (вещественного) признакового пространства. {Обобщения байесовских алгоритмов}, основанные на кодировании категорий оценками вероятностей принадлежности к классам объектов категорий. {Cингулярное разложение матрицы бинарных признаков}, которая является матрицей характеристических векторов принадлежностей к категориям. {Алгоритмы, основанные на близости}, которые обобщают модель ближайших соседей kNN и алгоритмов вычисления оценок (АВО). {Тензорные разложения}, в которых номера категорий интерпретируются как индексы многомерной матрицы. {Кодировки категориальных признаков в вещественные}, которые позволяют применять стандартные алгоритмы, например, случайные леса (random forest). Работа выполнена при поддержке гранта РФФИ 14-07-00965.

Публикация в формате сохранить в файл сохранить в файл сохранить в файл сохранить в файл сохранить в файл сохранить в файл скрыть