#10. Обучение с подкреплением или как загнать машину на гору | Генетические алгоритмы на Python

preview_player
Показать описание
Решается задача заезда машины на холм с помощью генетического алгоритма, используя принцип обучения с подкреплением. Введение в пакет OpenAI Gym и использование окружения MountainCar-v0. Рассматриваются методы: make(), reset(), step(), render() и close().

Рекомендации по теме
Комментарии
Автор

очень интересно! Я только начинаю учить подобное, и не все понимаю, но мне оч нравятся ваши видео

andreus
Автор

Спасибо! Классный урок. Но хотелось бы лекцию по настройке нейронных сетей с помощью генетического алгоритма и сравнение отборы лучших особей и турнирного отбора.

yango
Автор

Не плохо, но хорошо бы было пояснить сколько очков макс. за выполненное задание и подчеркнуть, что за каждую команду = -1, а также сколько за мин. расстояние за игру. И последнее, как вы можете танцевать под такую музыкальную концовку?

vitall
Автор

И что будет, если поместить этот алгоритм в другую среду? Он же по сути к одной конкретной среде адаптируется. Как сделать алгоритм, который адаптируется под любую среду схожего типа? За уроки спасибо огромное. Колоссальная работа.

archyt
Автор

По моему это единственный канал где такая подробная информация.
Минус есть не раскрывается смысл как работает на самом деле под капотом.
Это подходит для гуманитарных.
Я вот не могу понять пока не знаю почему это работает.
Я начал изучать программирование с того как думает компьютер архитектуру.
Встречал материал по ии его преподносят так запутанно что это все, теряет смысл.
Десятки видео уроков показывают что они обучили agents и все уроки вилой по воде.
Одна вода вода и только.

Поэтому перешёл на иностранный источник там четко без воды без теоретических сказок.

ufqhfrd
Автор

Спасибо за урок
Вы никогда не думали о том, чтобы сделать уроки по принципам солид или многопоточности в с++?

DRTR-bmwt
Автор

Здравствуйте, вопрос: А как реализовать или создать свое собственное окружение при обучении с подкреплением, а не загружать готовые?

myrzen
Автор

В генетическом алгоритме есть переобучение? Когда выучит все как есть а на новом не будет хорошо работать, т.е. придется новый обьект агент выводить

dicloniusN
Автор

Хотел бы задать вопрос не очень по теме, q-learning использует нейронные сети, или для него они не нужны?

yuliyaparamonova
Автор

А откуда берется переменная abs в score = abs(observation[0] - FLAG_LOCATION) ?

imwqbvl
Автор

Можно так сказать: ген. алгоритм в данном случае ускоряет подбор гипер-параметров нейронной сети? Или нет всё таки?

archyt
Автор

Тут же нет обучения с подкреплением, только генетический алгоритм

yuliyaparamonova
Автор

6:03 _Двухсот ген..._ Вам самому это слух не режет? Правильно ведь говорить _Двухсот генОВ_

Dimofey