Apprentissage par imitation dans un cadre batch, off-policy et sans modèle

Edouard Klein 1, 2 Matthieu Geist 2 Olivier Pietquin 2
1 ABC - Machine Learning and Computational Biology
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
2 IMS - Equipe Information, Multimodalité et Signal
UMI2958 - Georgia Tech - CNRS [Metz], SUPELEC-Campus Metz
Résumé : Ce papier traite le problème de l'apprentissage par imitation, c'est à dire la résolution du problème du contrôle optimal à partir de données tirées d'une démonstration d'expert. L'apprentissage par renforcement inverse (IRL) propose un cadre efficace pour résoudre ce problème. En se basant sur l'hypothèse que l'expert maximise un critère, l'IRL essaie d'apprendre la récompense qui définit ce critère à partir de trajectoires d'exemple. Beaucoup d'algorithmes d'IRL font l'hypothèse de l'existence d'un bon approximateur linéaire pour la fonction de récompense et calculent l'attribut moyen (le cumul moyen pondéré des fonctions de base, relatives à la paramétrisation linéaire supposée de la récompense, évaluées en les états d'une trajectoire associée à une certaine politique) via une estimation de Monte-Carlo. Cela implique d'avoir accès à des trajectoires complète de l'expert ainsi qu'à au moins un modèle génératif pour tester les politiques intermédiaires. Dans ce papier nous introduisons une méthode de différence temporelle, LSTD-µ, pour calculer cet attribut moyen. Cela permet d'étendre l'apprentissage par imitation aux cas batch et off-policy.
Document type :
Conference papers
Complete list of metadatas

Cited literature [18 references]  Display  Hide  Download

https://hal-supelec.archives-ouvertes.fr/hal-00652762
Contributor : Sébastien van Luchene <>
Submitted on : Tuesday, January 17, 2012 - 10:13:37 AM
Last modification on : Wednesday, July 31, 2019 - 4:18:03 PM
Long-term archiving on : Tuesday, December 13, 2016 - 7:01:25 PM

File

Supelec702.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00652762, version 1

Citation

Edouard Klein, Matthieu Geist, Olivier Pietquin. Apprentissage par imitation dans un cadre batch, off-policy et sans modèle. JFPDA 2011, Jun 2011, Rouen, France. pp.1-9. ⟨hal-00652762⟩

Share

Metrics

Record views

405

Files downloads

127