Аннотация:Моделирование пространственного распространения позволяет установить связь между местонахождениями особей вида и факторами природной среды. Для обработки подобных данных необходимо применение методов машинного обучения. В настоящей работе проведен анализ биоклиматических переменных и данных о распространении нескольких видов растений на территории полуострова Крым. При этом использованы как методы машинного обучения без учителя (кластеризация, анализ главных компонент PCA), так и обучение с учителем (бинарные классификаторы). Географические координаты мест сбора растений получены на основе этикеток образцов из трех гербариев: Московского университета (MW), Главного ботанического сада имени Н.В. Цицина РАН (MHA), Ботанического института имени В.Л. Комарова РАН (LE). Значения 19 климатических переменных из базы данных WorldClim версии 2.0 были извлечены для точек в узлах решетки разрешением 0.125° и для всех точек сбора образцов. Статистический анализ, машинное обучение и визуализация результатов выполнены в свободной программной среде R. Кластерный анализ выделил 5 устойчивых кластеров, сопоставимых с существующими схемами физико-географического районирования Крыма. Корреляционный анализ и PCA биоклиматических переменных позволили установить, что некоторые из них сильно скоррелированы между собой и вносят небольшой вклад в дисперсию данных. Использование таких переменных нецелесообразно, поскольку снижает показатели алгоритмов машинного обучения. Помимо этого, для выявления малоинформативных переменных проведен анализ вклада предикторов в работу классификаторов. В результате работы выделены переменные, вносящие наибольший вклад в работу классификаторов, проведена оценка результатов кластеризации и показателей классификаторов при использовании наиболее информативных переменных. Показано, что точность, чувствительность и специфичность классификаторов при удалении малоинформативных переменных в большинстве случаев возрастают.