Classification structurée pour l'apprentissage par renforcement inverse

Edouard Klein 1 Bilal Piot 1 Matthieu Geist 1 Olivier Pietquin 1
1 IMS - Equipe Information, Multimodalité et Signal
UMI2958 - Georgia Tech - CNRS [Metz], SUPELEC-Campus Metz
Résumé : Cette contribution traite le problème de l'apprentissage par renforcement inverse (ARI), défini comme la recherche d'une fonction de récompense pour laquelle le comportement d'un expert (connu par le biais de démonstrations) est optimal. Nous introduisons SCIRL, un nouvel algorithme qui utilise la grandeur dénommée attribut moyen de l'expert comme la paramétrisation d'une fonction de score pour un classifieur multiclasse. Cette approche donne une fonction de récompense pour laquelle la politique de l'expert est (nous le démontrons) quasi optimale. Contrairement à la plupart des algorithmes d'ARI existants, SCIRL n'a pas besoin de résoudre le problème direct de l'apprentissage par renforcement. De plus, en utilisant une heuristique, il fonctionne avec uniquement des trajectoires échantillonnées par l'expert. Nous illustrons cela sur un simulateur de conduite.
Document type :
Journal articles
Complete list of metadatas

https://hal-supelec.archives-ouvertes.fr/hal-00869723
Contributor : Sébastien van Luchene <>
Submitted on : Friday, October 4, 2013 - 9:02:07 AM
Last modification on : Wednesday, July 31, 2019 - 4:18:03 PM

Links full text

Identifiers

Collections

Citation

Edouard Klein, Bilal Piot, Matthieu Geist, Olivier Pietquin. Classification structurée pour l'apprentissage par renforcement inverse. Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, Lavoisier, 2013, 27 (2), pp.155-169. ⟨10.3166/ria.27.155-169⟩. ⟨hal-00869723⟩

Share

Metrics

Record views

151