Распознавание особых участков генома методами машинного обучения

Дюкова, А.П.; Дюкова, Е.В.

Авторы: Дюкова А.П., Дюкова Е.В.
Журнал: Искусственный интеллект и принятие решений
Номер: 4
Год издания: 2024
Первая страница: 95
Последняя страница: 104
DOI: 10.14357/20718594240404
Аннотация: В статье изучаются вопросы распознавания особых структурных сегментов геномов, называемых промотерами. Для решения задачи распознавания промотера впервые применены методы машинного обучения, основанные на логическом анализе и классификации данных. Эти методы базируются на поиске информативных фрагментов в признаковых описаниях прецедентов и ориентированы на обработку целочисленной информации низкой значности. Искомые фрагменты хорошо интерпретируемы и позволяют отличать промотеры от других областей генома, однако их поиск требует больших временных затрат. Приведены результаты экспериментов на несбалансированной выборке большого объема, при этом рассмотрен как традиционный способ формирования признаков, использующий k-меры, так и методика прямого применения классификатора к исходным данным. Показано, что во втором случае качество логической классификации существенно выше и составляет 94,3% по ROC-AUC с использованием ансамблевого подхода. Наилучший результат, а именно, точность по ROC-AUC равную 95,1%, показал классификатор Catboost при прямом применении к исходной выборке. При традиционном способе формирования признаков точность Catboost равна 94,8%.
Добавил в систему: Дюкова Елена Всеволодовна

	ИСТИНА	Войти в систему Регистрация
	Интеллектуальная Система Тематического Исследования НАукометрических данных
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

Интеллектуальная Система Тематического Исследования НАукометрических данных

Распознавание особых участков генома методами машинного обучениястатья