Apprentissage par démonstrations : vaut-il la peine d'estimer une fonction de récompense?

Bilal Piot 1 Matthieu Geist 2 Olivier Pietquin 1
1 IMS - Equipe Information, Multimodalité et Signal
UMI2958 - Georgia Tech - CNRS [Metz], SUPELEC-Campus Metz
Résumé : Cet article propose une étude comparative entre l'Apprentissage par Renforcement Inverse (ARI) et l'Apprentissage par Imitation (AI). L'ARI et l'AI sont deux cadres de travail qui utilisent le concept de Processus Décisionnel de Markov (PDM) et dans lesquels nous cherchons à résoudre le problème d'Apprentissage par Démonstrations (AD). L'AD est un problème où un agent appelé ap- prenti cherche à apprendre à partir de l'observation des démonstrations d'un autre agent appelé expert. Dans le cadre de travail de l'AI, l'apprenti essaie d'apprendre directement la politique de l'expert alors que dans le cadre de l'ARI, l'apprenti essaie d'apprendre la récompense qui explique la politique de l'expert. Cette récompense est ensuite optimisée pour imiter l'expert. On peut donc légitimement se demander s'il y a un intérêt à estimer une récompense qui devra ensuite être optimisée ou si l'estima- tion d'une politique est suffisante. Cette question assez naturelle n'a pas encore été réellement traitée dans la littérature pour l'instant. Ici, des réponses partielles à la fois d'un point de vue théorique et pra- tique sont produites. Mots-clés : Apprentissage par Renforcement Inverse, Apprentissage par Imitation, Apprentissage par Démonstrations.
Document type :
Conference papers
Complete list of metadatas

Cited literature [10 references]  Display  Hide  Download

https://hal-supelec.archives-ouvertes.fr/hal-00916941
Contributor : Sébastien van Luchene <>
Submitted on : Wednesday, December 11, 2013 - 8:59:03 AM
Last modification on : Wednesday, July 31, 2019 - 4:18:03 PM
Long-term archiving on : Friday, March 14, 2014 - 10:20:45 AM

File

Piot_Bilal_LFD.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00916941, version 1

Collections

Citation

Bilal Piot, Matthieu Geist, Olivier Pietquin. Apprentissage par démonstrations : vaut-il la peine d'estimer une fonction de récompense?. Journées Francophones de Plannification, Décision et Apprentissage (JFPDA), Jul 2013, Lille, France. ⟨hal-00916941⟩

Share

Metrics

Record views

166

Files downloads

93