L'algorithme de programmation dynamique pour générer des loi de commandes optimales

Показать описание

4e capsule d'une série sur la commande optimale et l'apprentissage par renforcement qui sont présentés sous la base commune de la programmation dynamique.

Cette capsule présente comment utiliser le principe de programmation dynamique pour générer une loi de commande optimale pour un système dynamique déterministe à temps discret.

La série de capsule va couvrir les sujets suivants:
- Principe d'optimalité (Richard Bellman 50s)
- Exemple de commande optimale d'un pendule
- Algorithme de programmation dynamique (version générique)
- Exemple pour les systèmes continus
- Version de l'algorithme pour les systèmes à états discrets et actions discrètes
- Exemple pour trouver le chemin le plus court sur graphe
- Systèmes stochastiques et espérance de la fonction de coût
- Algorithme de programmation dynamique pour optimiser l'espérance d'une fonction de coût
- Exemple d'un contrôle d'inventaire optimal en fonction d'une demande aléatoire
- Systèmes de type chaînes de Markov (stochastique, états discrets et actions discrètes)
- Exemple de stratégie optimale pour un jeu
- Résultats pour les systèmes linéaires et solution LQR (équation de Riccati)
- Algorithme de commande robuste de type minimax
- Optimisation pour un horizon de temps infini
- Algorithme d'itération de valeur (value iteration)
- Algorithme d'itération de loi de commande (policy iteration)
- Apprentissage par renforcement (TD-learning, Q-learning, SARSA, etc.)
- Méthodes hors-ligne pour approximer et paramètrer la fonction de coût à venir
- Apprentissage par renforcement avec des réseaux de neurones (deep reinforcement learning)
- Méthodes en-ligne pour approximer la fonction de coût à venir
- Commande prédictive (MPC)

Рекомендации по теме

L'algorithme de programmation dynamique pour générer des loi de commandes optimales

L'algorithme de programmation dynamique pour générer des loi de commandes optimales

1- Modèles de chemins (Programmation dynamique): le problème du sac a dos

Modèles de chemins (Programmation dynamique): Exercice d'alignement de séquences de nucléotides...

Exemple 2 de programmation dynamique

1- Algorithme de Bellman-Ford: Application sur un exemple

Programmation dynamique pour les systèmes discrets et problème du chemin le plus court sur un graphe...

2 types de sous-problèmes pour les plus courts chemins (Programmation dynamique)

2- Modèles de chemins (Programmation dynamique) : un modèle de chemin pour le sac à dos

Programmation dynamique pour un processus de décision markovien (MDPs)

Chemin le plus court sur un graphe - exemple de solution par programmation dynamique

3- Modèles de chemins (Programmation dynamique): équation de récurrence et algorithme

exo 1/2: TD bioinformatique les Alignement global pour L3 . M1 ....

Programmation dynamique: Plan du chapitre et intention pédagogique

G1ID [OCaml] - Programmation dynamique

NSI - Terminale - Programmation Dynamique Épisode 1- Exemples avec Python - Alignement de séquences...

Programmation dynamique

Problème du sac à dos

Algorithme d'optimisation : Le sac à dos

Problème du Sac-à-dos -- KnapSack

la programmation dynamique (dynamic programming)

Modèles de chemins (programmation dynamique): chemins équilibrés

Programmation dynamique: multiplication d'une chaîne de matrices

Commande optimale d'un système de chauffage avec la programmation dynamique

Programmation dynamique : sac à dos