Apprentissage par démonstrations : vaut-il la peine d'estimer une fonction de récompense?

Bilal Piot; Matthieu Geist; Olivier Pietquin

Communication Dans Un Congrès Année : 2013

Apprentissage par démonstrations : vaut-il la peine d'estimer une fonction de récompense?

(1) , (1) , (1)

Bilal Piot

Fonction : Auteur

IMS : Information, Multimodalité & Signal

Matthieu Geist

Fonction : Auteur
PersonId : 6945
IdHAL : matthieu-geist

IMS : Information, Multimodalité & Signal

Olivier Pietquin

Fonction : Auteur
PersonId : 4024
IdHAL : olivier-pietquin
ORCID : 0000-0002-5386-465X
IdRef : 142821861

IMS : Information, Multimodalité & Signal

Résumé

Cet article propose une étude comparative entre l'Apprentissage par Renforcement Inverse (ARI) et l'Apprentissage par Imitation (AI). L'ARI et l'AI sont deux cadres de travail qui utilisent le concept de Processus Décisionnel de Markov (PDM) et dans lesquels nous cherchons à résoudre le problème d'Apprentissage par Démonstrations (AD). L'AD est un problème où un agent appelé ap- prenti cherche à apprendre à partir de l'observation des démonstrations d'un autre agent appelé expert. Dans le cadre de travail de l'AI, l'apprenti essaie d'apprendre directement la politique de l'expert alors que dans le cadre de l'ARI, l'apprenti essaie d'apprendre la récompense qui explique la politique de l'expert. Cette récompense est ensuite optimisée pour imiter l'expert. On peut donc légitimement se demander s'il y a un intérêt à estimer une récompense qui devra ensuite être optimisée ou si l'estima- tion d'une politique est suffisante. Cette question assez naturelle n'a pas encore été réellement traitée dans la littérature pour l'instant. Ici, des réponses partielles à la fois d'un point de vue théorique et pra- tique sont produites. Mots-clés : Apprentissage par Renforcement Inverse, Apprentissage par Imitation, Apprentissage par Démonstrations.

Domaines

Apprentissage [cs.LG]

Fichier principal

Piot_Bilal_LFD.pdf (209.46 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Sébastien Van Luchene : Connectez-vous pour contacter le contributeur

https://centralesupelec.hal.science/hal-00916941

Soumis le : mercredi 11 décembre 2013-08:59:03

Dernière modification le : mardi 14 février 2023-03:38:01

Archivage à long terme le : vendredi 14 mars 2014-10:20:45

Dates et versions

hal-00916941 , version 1 (11-12-2013)

Identifiants

HAL Id : hal-00916941 , version 1

Citer

Bilal Piot, Matthieu Geist, Olivier Pietquin. Apprentissage par démonstrations : vaut-il la peine d'estimer une fonction de récompense?. Journées Francophones de Plannification, Décision et Apprentissage (JFPDA), Jul 2013, Lille, France. ⟨hal-00916941⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

SUPELEC CENTRALESUPELEC

114 Consultations

274 Téléchargements

Apprentissage par démonstrations : vaut-il la peine d'estimer une fonction de récompense?

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager