Аннотация:В данной работе рассматривается разработка метода самокоррекции больших языковых моделейна основе обучения с подкреплением. Актуальность исследования обусловлена нестабильностью качества ответовсовременных LLM, их склонностью к фактическим и логическим ошибкам, а также отсутствием встроенных механизмов самопроверки и исправления собственных ответов. Задача самокоррекции формализована как эпизодический марковский процесс принятия решений (MDP), где модель генерирует первичный ответ и затем корректирующую попытку, оценивая приращение качества между ними с помощью бинарной награды. В работе проанализированы и преодолены основные вызовы: смещение распределений, коллапс поведения и проблемы нечестной оптимизации награды. Рассмотрены существующие подходы к решению проблемы, включая test-time reasoning, цепочки рассуждений, подходы на основе prompting и fine-tuning, а также методы обучения с подкреплением. Предложено решение на основе алгоритма обучения с подкреплением Advantage Actor-Critic, выбранного из соображений оптимального баланса между простотой реализации и эффективностью оптимизации. Описана архитектура и процесс двухэтапного обучения, направленного на стабильное формирование навыков самокоррекции. В работе представлены экспериментальные результаты, демонстрирующие повышение качества самокоррекции моделей на задачах математического характера. Полученные результаты подтверждают практическую значимость предложенного метода, обеспечивая повышение надежности и устойчивости решений, генерируемых большими языковыми моделями.