Classification régularisée par la récompense pour l'Apprentissage par Imitation

Bilal Piot 1 Matthieu Geist 2 Olivier Pietquin 1
1 IMS - Equipe Information, Multimodalité et Signal
UMI2958 - Georgia Tech - CNRS [Metz], SUPELEC-Campus Metz
Résumé : Cet article traite le problème d'Apprentissage par Démonstrations (AD) dans lequel un agent appelé apprenti cherche à apprendre à partir des démonstrations d'un autre agent appelé expert. Pour aborder ce problème assez général, il est commun d'adopter le paradigme des Processus Décisionnels de Markov (PDM) qui est approprié pour les problèmes de prises de décisions séquentielles. Dans la littérature, il y a principalement deux façons de traiter ce problème (en faisant appel aux PDM) qui sont l'Apprentissage par Imitation (AI) où l'apprenti cherche directement à imiter la politique de l'expert et l'Apprentissage par Renforcement Inverse (ARI) où l'apprenti essaye d'apprendre une récompense qui pourrait expliquer la politique de l'expert. Ici, nous introduisons un paradigme inédit, appelé cadre de travail des politiques d'ensembles ( set-policy framework ), pour lequel il y a un lien naturel entre les méthodes d'AI et d'ARI. Ce paradigme permet de dériver des nouveaux algorithmes qui nécessitent uniquement la connaissance de couples état-action experts et d'exemples de transitions du PDM. Des expériences sont réalisés sur un problème qui fait référence (un simulateur de trafic routier) et sur une tâche plus générique (les Garnets) qui permet une comparaison plus générale des algorithmes. Mots-clés : Apprentissage par Renforcement Inverse, Apprentissage par Imitation.
Document type :
Conference papers
Complete list of metadatas

Cited literature [16 references]  Display  Hide  Download

https://hal-supelec.archives-ouvertes.fr/hal-00916940
Contributor : Sébastien van Luchene <>
Submitted on : Wednesday, December 11, 2013 - 8:56:15 AM
Last modification on : Wednesday, July 31, 2019 - 4:18:03 PM
Long-term archiving on : Friday, March 14, 2014 - 10:20:39 AM

File

Piot_Bilal_RCAL.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00916940, version 1

Collections

Citation

Bilal Piot, Matthieu Geist, Olivier Pietquin. Classification régularisée par la récompense pour l'Apprentissage par Imitation. Journées Francophones de Plannification, Décision et Apprentissage (JFPDA), Jul 2013, Lille, France. ⟨hal-00916940⟩

Share

Metrics

Record views

198

Files downloads

80