ИСТИНА |
Войти в систему Регистрация |
|
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
Анализ данных (data mining) развивается в последние годы стремительными темпами. Теории, которые недавно казались устоявшимися, не справляются с огромной массой новых проблем. Увеличение объёмов данных, специфика входной информации и особые требования к решениям порождают новые классы прикладных задач. При этом, более-менее успешно работают эвристические доработки <<старых испытанных>> методов: основанных на близости, случайных деревьях и бустинге. Данная работа посвящена некоторым технологиям решения современных задач, но технологиям не в широком смысле (проблемам математической формулировки, хранения информации, средствам разработки алгоритмов, проектированию процесса решения, внедрению и т.д.), а в конкретном узком: что и как делать аналитику, чтобы построить алгоритм приемлемого качества. Описанные подходы быстро и просто реализуются в современных системах (например, в MatLab и R). Главная особенность работы в том, что все описанные методы верифицированы на реальных, актуальных для бизнеса задачах, в рамках последних турниров платформ Kaggle и TunedIT (а не на таблицах из репозиториев). Таким образом, не нуждается в обосновании их эффективность и не требуется сравнение с другими технологиями.