Аннотация:Курсовая работа Кувшинова Владимира носит обзорный характер и посвящена изложению основных концепций и методов обучения с подкреплением. Автор подробно рассматривает различные постановки задач обучения с подкреплением, и математические модели, на основе которых можно решать данные задачи. В частности, в работе рассматривается модель марковских процессов принятия решений, и модель на основе динамического программирования. Автор формулирует задачу оптимизации действий робота, которую он предполагает решать на основе обучения с подкреплением, однако решения этой задачи он не приводит.