Classification structurée pour l'apprentissage par renforcement inverse

Edouard Klein 1, 2 Bilal Piot 3 Matthieu Geist 3 Olivier Pietquin 3
1 ABC - Machine Learning and Computational Biology
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
3 IMS - Equipe Information, Multimodalité et Signal
UMI2958 - Georgia Tech - CNRS [Metz], SUPELEC-Campus Metz
Résumé : Cette contribution traite du problème de l'apprentissage par imitation par le biais de l'apprentissage par renforcement inverse (ARI). Dans ce contexte, un expert accomplit une tâche qu'un agent artificiel doit essayer de reproduire. L'ARI part du postulat que l'expert optimise avec succès une fonction de récompense ; le problème consiste à deviner cette fonction à partir de traces du comportement de l'expert. Les algorithmes d'ARI existants nécessitent une ou plusieurs des conditions suivantes pour fonctionner : trajectoires complètes de la part de l'expert, un modèle génératif pour les estimations de type Monte-Carlo, la connaissance des probabilités de transition, la capacité de résoudre le problème direct (celui de l'apprentissage par renforcement) de manière répétée ou l'accès à la strategie complète de l'expert. Notre contribution consiste en un nouvel algorithme d'ARI levant l'ensemble de ces contraintes. En utilisant une méthode supervisée dans laquelle nous introduisons implicitement la structure du processus décisionnel de Markov (PDM) sous-jacent, nous créons un algorithme basé sur une descente de sous-gradient, possèdant une faible complexité tant en échantillons que calculatoire et surtout ne nécessitant pas la résolution du problème direct.
Document type :
Conference papers
Complete list of metadatas

Cited literature [17 references]  Display  Hide  Download

https://hal-supelec.archives-ouvertes.fr/hal-00701947
Contributor : Sébastien van Luchene <>
Submitted on : Monday, October 29, 2012 - 2:11:05 PM
Last modification on : Wednesday, July 31, 2019 - 4:18:03 PM
Long-term archiving on : Thursday, December 15, 2016 - 9:17:47 AM

File

Cap13.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00701947, version 1

Citation

Edouard Klein, Bilal Piot, Matthieu Geist, Olivier Pietquin. Classification structurée pour l'apprentissage par renforcement inverse. Conférence Francophone sur l'Apprentissage Automatique - CAp 2012, May 2012, Nancy, France. pp.1-16. ⟨hal-00701947⟩

Share

Metrics

Record views

776

Files downloads

271