Разработка метода самокоррекции больших языковых моделей с помощью обучения с подкреплением

Исаев, Р.Р.; Ильюшин, Е.А.

Авторы: Исаев Р.Р., Ильюшин Е.А.
Журнал: International Journal of Open Information Technologies
Том: 13
Номер: 6
Год издания: 2025
Издательство: Лаборатория Открытых Информационных Технологий факультета ВМК МГУ им. М.В. Ломоносова
Местоположение издательства: Москва
Первая страница: 1
Последняя страница: 9
Аннотация: В данной работе рассматривается разработка метода самокоррекции больших языковых моделейна основе обучения с подкреплением. Актуальность исследования обусловлена нестабильностью качества ответовсовременных LLM, их склонностью к фактическим и логическим ошибкам, а также отсутствием встроенных механизмов самопроверки и исправления собственных ответов. Задача самокоррекции формализована как эпизодический марковский процесс принятия решений (MDP), где модель генерирует первичный ответ и затем корректирующую попытку, оценивая приращение качества между ними с помощью бинарной награды. В работе проанализированы и преодолены основные вызовы: смещение распределений, коллапс поведения и проблемы нечестной оптимизации награды. Рассмотрены существующие подходы к решению проблемы, включая test-time reasoning, цепочки рассуждений, подходы на основе prompting и fine-tuning, а также методы обучения с подкреплением. Предложено решение на основе алгоритма обучения с подкреплением Advantage Actor-Critic, выбранного из соображений оптимального баланса между простотой реализации и эффективностью оптимизации. Описана архитектура и процесс двухэтапного обучения, направленного на стабильное формирование навыков самокоррекции. В работе представлены экспериментальные результаты, демонстрирующие повышение качества самокоррекции моделей на задачах математического характера. Полученные результаты подтверждают практическую значимость предложенного метода, обеспечивая повышение надежности и устойчивости решений, генерируемых большими языковыми моделями.
Добавил в систему: Ильюшин Евгений Альбинович

	ИСТИНА	Войти в систему Регистрация
	Интеллектуальная Система Тематического Исследования НАукометрических данных
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

Интеллектуальная Система Тематического Исследования НАукометрических данных

Разработка метода самокоррекции больших языковых моделей с помощью обучения с подкреплениемстатья