Использование внешней памяти в обучении с подкреплением

preview_player
Показать описание
Несмотря на блестящие показатели обучения с подкреплением в конкретных средах, текущие подходы печально известны свойством data-inefficiency. К примеру, для обучения агентов игры в Atari требуется десятки тысяч часов игрового времени, в то время как человеку достаточно нескольких часов взаимодействия со средой для выявления непроигрышной стратегии. В настоящее время для оптимизации алгоритмов предлагаются различные подходы: transfer learning, новые методы исследования среды, иерархическое обучение и др. Одним из возможных решений является попытка реализовать аналог гиппокампового участка мозга у человека - части памяти, ответственной за консолидацию долговременных воспоминаний.

На семинаре будут рассмотрены подходы к реализации агентов с аналогом долговременной памяти, архитектурные решения и полученные результаты.

Докладчик: Игорь Кузнецов.

Рекомендации по теме