Метод Монте-Карло: оценка политики. Лекция 4 по обучению с подкреплением

preview_player
Показать описание
Лекция посвящена методу Монте-Карло. Рассматриваем оценку политики, когда нет доступа к динамической модели и модели наград, но есть возможность взаимодействовать с окружением.

0:00 Введение
0:46 Краткий повтор пройденного материала
2:16 Policy Improvement For MDP
3:15 Model Free RL: обучение с подкреплением без модели
5:42 Bias vs Variance
44:11 Monte Carlo Learning
45:55 Monte Carlo: оценка политики
46:17 Метод First-Visit Monte Carlo Policy Evaluation
53:44 Метод Every-Visit Monte Carlo Policy Evaluation
54:48 Почему задача контроля сложнее?
59:10 Заключение

Информация о лекциях:

Телеграм-канал с анонсами лекций и материалами по машинному обучению:
Рекомендации по теме
Комментарии
Автор

Здравствуйте. У меня возник вопрос. Можно использовать метод Монте Карло для обучения, образование. Чтобы прогназировать ситуацию или книгу. Благодарю.

davidsuraganlive