Обучение с подкреплением для многоцелевых задач - дипломная работа | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Научный руководитель: Половников В.С.
Автор: Тен В.А.
Тип: Бакалавр
Организация, в которой проходила защита: МГУ имени М.В. Ломоносова
Год защиты: 2018
Аннотация: При современном уровне автоматизации во многих областях роботы и искусственный интеллект могут полностью заменить человека, взаимодействовать друг с другом и человеком. Автоматы умеют управлять автомобилем и принимать заказы по телефону, работать на конвейере и описывать ситуацию по фотографии. Иногда для обучения можно привести ряд строгих правил, но в большинстве случаев это не так. А если условия постоянно меняются, то и правила должны строиться динамически. Подходы глубокого обучения и концепция обучения с подкреплением помогли решить ряд задач поведения агента в среде, в частности превзойти человека в шахматах, игре го, чтении по губам. Часто бывает сложно сформулировать правила обучения и определить все параметры функции поощрения. Проще на примере показать, как должен действовать агент. Такой вид обучения с учителем называется обучение подражанием или Imitation learning. Интересно, что обученный по такой технологии робот ведёт себя более естественно, «человекоподобно». Владиславу была поставлена задача изучить подходы и реализации обучения с подкреплением и обучения подражанием, провести сравнение и продемонстрировать эффективность методов на игровых задачах, приближенных к реальности. В своей курсовой работе Тен В.А. рассмотрел модель Q-Learning для решения задачи обхода препятствий и поиска цели на дискретном поле. В выпускной работе он рассмотрел задачу балансировки платформы и задачу поиска объекта на платформе с препятствием на непрерывном поле в физической среде. В качестве «мозга» агента при обучении подражанием выступает неглубокая нейронная сеть прямого распространения с сигмоидной функцией активации, обучаемая методом обратного распространения ошибки. На рассмотренных примерах Владислав показал, что одна и та же модель в некотором смысле универсальна и хорошо справляется с обеими задачами, действие обученного агента плавные, как у учителя, а само обучение происходит за меньшее время, чем при обучении с подкреплением.
Добавил в систему: Половников Владимир Сергеевич

	ИСТИНА	Войти в систему Регистрация
	Интеллектуальная Система Тематического Исследования НАукометрических данных
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

Интеллектуальная Система Тематического Исследования НАукометрических данных

Обучение с подкреплением для многоцелевых задачдипломная работа (Бакалавр)