Аннотация:При современном уровне автоматизации во многих областях роботы и искусственный интеллект могут полностью заменить человека, взаимодействовать друг с другом и человеком. Автоматы умеют управлять автомобилем и принимать заказы по телефону, работать на конвейере и описывать ситуацию по фотографии. Иногда для обучения можно привести ряд строгих правил, но в большинстве случаев это не так. А если условия постоянно меняются, то и правила должны строиться динамически. Подходы глубокого обучения и концепция обучения с подкреплением помогли решить ряд задач поведения агента в среде, в частности превзойти человека в шахматах, игре го, чтении по губам. Часто бывает сложно сформулировать правила обучения и определить все параметры функции поощрения. Проще на примере показать, как должен действовать агент. Такой вид обучения с учителем называется обучение подражанием или Imitation learning. Интересно, что обученный по такой технологии робот ведёт себя более естественно, «человекоподобно».
Владиславу была поставлена задача изучить подходы и реализации обучения с подкреплением и обучения подражанием, провести сравнение и продемонстрировать эффективность методов на игровых задачах, приближенных к реальности. В своей курсовой работе Тен В.А. рассмотрел модель Q-Learning для решения задачи обхода препятствий и поиска цели на дискретном поле. В выпускной работе он рассмотрел задачу балансировки платформы и задачу поиска объекта на платформе с препятствием на непрерывном поле в физической среде. В качестве «мозга» агента при обучении подражанием выступает неглубокая нейронная сеть прямого распространения с сигмоидной функцией активации, обучаемая методом обратного распространения ошибки.
На рассмотренных примерах Владислав показал, что одна и та же модель в некотором смысле универсальна и хорошо справляется с обеими задачами, действие обученного агента плавные, как у учителя, а само обучение происходит за меньшее время, чем при обучении с подкреплением.