Лекция 11 - Обучение с подкреплением (Reinforcement Learning)

preview_player
Показать описание
Рекомендации по теме
Комментарии
Автор

Большое спасибо за лекцию, очень полезно для старта! 👍

dmitrysysoev
Автор

Спасибо за данный курс лекций! На русских просторах, без преувеличений, это лучший разбор нейронных сетей.
Наткнулся на Вас случайно, изучая нейронные сети на Хабре. Теперь планирую так же просмотреть Ваш более новый курс "Deep learning на пальцах".

vkznmqi
Автор

Привет. А каким образом можно было бы пообщаться онлайн и задать вопросы/обсудить пару идей? Возможно даже найти точки по сотрудничеству? ;)

zjekamur
Автор

1:07 Вроде модель R2D2 (авторы Шмитхубер) использует RNN, если не ошибаюсь.

adbastana
Автор

Добрый день! Досмотрел до 30 минуты. Мучает вопрос. Как обновлять веса в сети например при policy gradients? Мы начинаем в s0 и проходим последовательно до конца (финиша или пока итерации не закончились), на каждом новом шаге s(t+1) получаем reward (t+1). Я могу высчитать дисконтируемую сумму за всю сессию и отдельно хранить reward по каждому шагу. Не понимаю, как обучить веса сети после сессии? Очень хочется разобраться...

hdrenzt