Аннотация:В работе Галымжана Кабылбекова исследуется задача классификации психологических тестов по трудным ситуациям. Имеется почти 500 размеченных экспертами тестов по трудным ситуациям. Разметка состоит в том, что в текст тестов вносятся маркеры, отражающие разные признаки тестов. Всего получилось 128 признаков. Каждый тест переводится в вектор признаков в соответствии с наличием или отсутствием маркера, соответствующего признаку. Каждый тест отнесен к одному из пяти классов. Основной метод классификации, исследуемый в работе – это случайный лес. Сначала с помощью экспериментов со стандартным алгоритмом случайного выбираются наилучшие параметры алгоритма, а именно, количество деревьев в ансамбле и глубина деревьев решений. После подбора параметров точность классификации получается равной около 44%. Далее делается попытка улучшения точности за счет предобработки исходных векторов признаков. Сначала методом рекурсивного исключения признаков и методом отбора наиболее важных признаков делается сокращение множества признаков. В результате процент точности повышается до 45%. Далее делается попытка улучшения точности классификации с помощью балансировки классов: случайным сокращением числа тестов до размеров минимального класса, и искусственным добавлением тестов до размеров максимального класса. Добавление новых тестов производится двумя способами: случайным дублированием данных и методом искусственного добавления данных SMOTE. Добавление данных дает лучший результат и точность повышается до 46%. Также предложен иерархический классификатор, основанной на рекурсивном использовании бинарного классификатора. Он дает точность, равную 45.5%. Делается сравнение результатов классификации с другими методами классификации: случайным классификатором с учетом вероятности классов (28%), методом К-ближайших (38%) и алгоритмом CatBoostClassifier (42%).