Метод Монте-Карло: оценка политики. Лекция 4 по обучению с подкреплением

Показать описание

Лекция посвящена методу Монте-Карло. Рассматриваем оценку политики, когда нет доступа к динамической модели и модели наград, но есть возможность взаимодействовать с окружением.

0:00 Введение
0:46 Краткий повтор пройденного материала
2:16 Policy Improvement For MDP
3:15 Model Free RL: обучение с подкреплением без модели
5:42 Bias vs Variance
44:11 Monte Carlo Learning
45:55 Monte Carlo: оценка политики
46:17 Метод First-Visit Monte Carlo Policy Evaluation
53:44 Метод Every-Visit Monte Carlo Policy Evaluation
54:48 Почему задача контроля сложнее?
59:10 Заключение

Информация о лекциях:

Телеграм-канал с анонсами лекций и материалами по машинному обучению:

Рекомендации по теме

Комментарии

Здравствуйте. У меня возник вопрос. Можно использовать метод Монте Карло для обучения, образование. Чтобы прогназировать ситуацию или книгу. Благодарю.

davidsuraganlive

Метод Монте-Карло: оценка политики. Лекция 4 по обучению с подкреплением

Метод Монте-Карло: оценка политики. Лекция 4 по обучению с подкреплением...

Методы Монте-Карло. Контроль: On-Policy. Лекция 5 по обучению с подкреплением...

Конечный марковский процесс принятия решений и управление методом Монте-Карло...

Вальсируя с медведями 5; риски проектов методом 'Монте-Карло'...

Система Вероятностной Оценки Запасов и Ресурсов _ ВОЗИР...

2.2.1.4 Планирование проекта. Модуль 'Оценка длительности работ'...

Monte Carlo Learning. Off-Policy Evaluation and Control. Лекция 6 по обучению с подкреплением....

Лекция - Показатели оценки риска инвестиционного проекта...

Методы глубокого обучения, лекция 10

Методы глубокого обучения, лекция 9

Инструменты математического моделирования рисков

Общий ИИ, Лекция 13, часть 2

4.2.1.2 Мониторинг и контроль проекта. Модуль 'Метод освоенного объёма'...

Поиск оптимальной политики в марковском процессе принятия решений. Лекция 3 по RL....

Temporal Difference, Q-Learning. Лекция 7 по обучению с подкреплением

Управление рисками инвестиционных проектов. ЛекциЯ. Доц. Седанов А.А. Поток ВНДм-191, ВНДм-192...

Глубинное обучение для текстовых данных — лекция 11

Занятие 4. 2021-10-01. Опционы 2: геометрическое броуновское движение, метод Монте-Карло....

Количественная оценка рисков проекта: методы, которые работают - Джон Холлманн...

Лекция 2 по управления проектами (базовый курс)

Общий ИИ, Лекция 14, часть 2

Краткий курс по количественной оценке рисков - Константин Дождиков, директор, РОСНАНО...

Лекция Михаила Ханова для Школы МосБиржи I Курс 'Финансовые рынки - время перемен' | 27.05...

Управление рисками инвестиционных проектов. Лекция 2.Доц. Седанов А.А. Поток ВНДм-191, ВНДм-192...