Méthode de minimisation du résidu de Bellman boostée qui tient compte des démonstrations expertes.

Bilal Piot; Matthieu Geist; Olivier Pietquin

Communication Dans Un Congrès Année : 2014

Méthode de minimisation du résidu de Bellman boostée qui tient compte des démonstrations expertes.

(1, 2) , (2) , (3)

1
2
3

Bilal Piot

Fonction : Auteur
PersonId : 963155

Sequential Learning

Georgia Tech Lorraine [Metz]

Matthieu Geist

Fonction : Auteur
PersonId : 6945
IdHAL : matthieu-geist

Georgia Tech Lorraine [Metz]

Olivier Pietquin

Fonction : Auteur
PersonId : 4024
IdHAL : olivier-pietquin
ORCID : 0000-0002-5386-465X
IdRef : 142821861

Laboratoire d'Informatique Fondamentale de Lille

Résumé

Ce papier traite du problème d'Apprentissage par Renforcement avec des Démonstrations Expertes (ARDE). Contrairement à l'Apprentissage par Renforcement (AR) où le but est de trouver une politique optimale d'un Processus Décisionnel de Markov (PDM) seulement à partir de transitions échantillonnées du PDM, en ARDE on dispose en plus de transitions échantillonnées expertes. Ainsi, le but de cet article est de proposer différents algorithmes qui prennent en compte la spécificité de ces données expertes. L'idée que l'on propose dans cet article diffère du cadre classique de Programmation Dynamique Approchée (PDA) dans le sens où l'on cherche à minimiser directement le Résidu Optimal de Bellman (ROB); la minimisation étant guidée par des contraintes définies par les transitions échantillonnées expertes. Ce choix est motivé par le fait que le contrôle du ROB implique le contrôle de la distance entre la fonction de qualité optimale et son estimée. Cependant, cette méthode présente plusieurs difficultés comme le fait que le critère empirique à minimiser est non-convexe, non-différentiable et biaisé. Ces difficultés seront surmontées via l'utilisation d'un plongement d'une probabilité dans un Espace d'Hilbert à Noyau Reproduisant (EHNR) et d'une méthode de boosting qui permet d'obtenir des algorithmes non-paramétriques. Finalement, nos algorithmes seront comparés à l'unique algorithme de l'état de l'art, Approximate Policy Iteration with Demonstrations (APID), dans différentes expériences.

Domaines

Sciences de l'ingénieur [physics]

Sébastien Van Luchene : Connectez-vous pour contacter le contributeur

https://centralesupelec.hal.science/hal-01104789

Soumis le : lundi 19 janvier 2015-11:27:05

Dernière modification le : jeudi 13 avril 2023-09:26:12

Dates et versions

hal-01104789 , version 1 (19-01-2015)

Identifiants

HAL Id : hal-01104789 , version 1

Citer

Bilal Piot, Matthieu Geist, Olivier Pietquin. Méthode de minimisation du résidu de Bellman boostée qui tient compte des démonstrations expertes.. 9èmes Journées Francophones de Planification, Décision et Apprentissage (JFPDA'14), May 2014, Liège, Belgique. ⟨hal-01104789⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

SUPELEC UNIV-LILLE3 CNRS INRIA UNIV-FCOMTE SUP_IMS LAGIS CENTRALESUPELEC UMI-GTL CRISTAL INRIA2 CRISTAL-SEQUEL

242 Consultations

0 Téléchargements

Méthode de minimisation du résidu de Bellman boostée qui tient compte des démonstrations expertes.

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager