Apprentissage par renforcement #5 : Introduction au Q-Learning

preview_player
Показать описание

Série de vidéos consacrée à l'apprentissage par renforcement. Dans cette vidéo, nous explorons l'algorithme du Q-Learning, très utilisé dans l'apprentissage par renforcement.

Discord de la communauté :

[Chronique d'une IA]

[About me]
Рекомендации по теме
Комментарии
Автор

Superbe vidéo, tu expliques très bien et tu prends ton temps avec divers exemples pour nous faire comprendre le principe du Q-learning au lieu de juste nous donner un code que l'on recopie bêtement sans comprendre... Continue comme ça et bon courage !

cowbra
Автор

Salut Thibault,
Avec mon collègue on a un module d'IA dans notre formation à Epitech.
On a toujours galéré un peu à se documenter et à bien comprendre ce qu'on faisait.
On est tombé sur tes vidéos récemment et sache qu'elles nous ont permis de comprendre beaucoup de choses et nous on vraiment apporté. Je t'en remercie beaucoup, bonne continuation à toi dans ce que tu fais!

anatoleacqueberge
Автор

Merci énormément de prendre la peine d'expliquer la théorie

ghilesdjebara
Автор

La récompense r devrait être mémorisée dans une variable associée à l'état par exemple ajouter une donnée reward dans la Q table pour chaque état : état 5 r=-1, état 9 r=1 autres r=0.

WahranRai
Автор

Tu assures merci beaucoup pour cette vidéo pédagogique bravo 😃👏👍

sergelebon
Автор

Bonjour et merci beaucoup pour ces videos d'une grande qualité pédagogique.
Il y a la théorie et la pratique et j'apprends énormément grace à votre travail.
Je me permettrais juste une petite réflexion en m'excusant d'avance si je me trompe.
Vous indiquez que le learning rate "alpha"
permet d'induire un effet de moyenne.

Dans ma compréhension à moi (niveau néophyte ;o) il permettrait plutot de se deplacer par petits pas sur le gradient "Q(t+1) - Q(t)" afin de ne pas "rater" son extremum.
Encore une fois : merci beaucoup

hervepostec
Автор

Les résultats de cette exemple permettent de bien voir les choix fait par l'agent et l'impact de la récompense négative.

xavierfolch
Автор

Vraiment super tes vidéos. Enfin des explications pas trop matheuses (même s'il en faut) mais qu'un développeur comme moi peut très bien comprendre. Vraiment continues comme ça, c'est absolument génial à suivre.
J'ai juste une question concernant les résultats de ta Q-table à la fin, il semble qu'à partir de l'état 7 l'algo semble trouver qu'il vaut mieux aller en haut plutôt qu'à droite et je me demandais pourquoi ? D'ailleurs aller à gauche serai mieux que d'aller à droite alors qu'on est sur le bord gauche, donc aller à gauche devrait être négatif non ?

sandsofcraft
Автор

Est ce je peut utiliser Qlearning pour résoudre mon problème qui est utiliser le max de temps qui divisé en deux intervalles égaux ou chaque intervalle dédié a un type de message a transmettre sur le canal approprié (pour éviter le temps perdu lors l'inactivité de l'un des deux)

minaamina
Автор

votre vidéo est super ....svp est ce que vous pouvez expliquer cette approche au négociation des agents ???

amanizarrougui
Автор

salut, superbe video.j'aimerais savoir si c'est possible que tu fasses une serie de videos sur l'A3C?

teddyguidibi
Автор

Merci Thibault pour tes vidéos !

Je voulais savoir comment faire fonctionner la Q-table si la récompense (ici la maison) est contrôlé par l'utilisateur et change la grille à chaque décision de ce dernier.

isly
Автор

Bonjour.
Je ne comprends pas le raisonnement de l'implémentation du e-greedy dans le main : at = take_action(st, Q, 0.1). La valeur 0.1 ici est comparée à une valeur aléatoire, donc une valeur que l'on ne maitrise pas. Par conséquent, on ne peut pas affirmer que 0, 1 équivaut à 10%. J'ai fait le test avec 0.1 et 0.4: avec 0.1 on explore 89 fois sur 1642 appels; avec 0.4 on est à 246 sur 1238. Ces valeurs changeront tout le temps étant donné que l'on utilise un random...

loloa
Автор

Merci pour cette vidéo, j'ai juste une question pour la Q function, comment on peut calculer le R_t+1, R_t+2 .... alors quand on est à l’état s_t on prends une action a_t (qui est soit haut, bas gauche ou droite) on va se trouver à l'état s_t+1 mais on cette état la on a pas l'action a_t+1 pour pouvoir calculer le R_t+1 et pareil pour le reste?
Je vous remercie par avance :)

ameltibhirt
Автор

Merci pour la video tres interessante!
Comment sont definies les Rewards au depart? Sont elles labelisees automatiquement -1 pour l'etat 5 et 1 pour l'etat 1, etc?
JH

jhujol
Автор

Salut. Peut-tu faire une video sur la curiosité de L'IA?

jovanyagathe
Автор

Bonjour Thibault,
J'ai essayé d'implémenter cet algo pour un jeu d'échec. Mais j'ai du mal à déterminer le stp1 et le atp1. Mon idée est d'avoir une Q-Table pour les deux côtés du plateau et du coup stp1 et atp1 représentent le prochain coup optimal que devrait prendre l'adversaire, je ne pense pas que ce soit la bonne méthode. Qu'en penses-tu ?

thekkwet
Автор

Le gamma est la pour dire a l'agent d'aller le plus vite possible vers le but non ?

zrmsraggot
Автор

le code de la video n'est pas disponible car je ne le trouve pas

redone
Автор

Salut super video, mais j'ai une question par rapport aux autres formations(apprentissage supervisé), ma question est de savoir comment je peux predire une image telechargé sur le net en la donnant a mon modele? exemple du modele de la formation mnist ou fashion...

jesuskazkid