Skip to Main content Skip to Navigation
Journal articles

Classification structurée pour l'apprentissage par renforcement inverse

Résumé : Cette contribution traite le problème de l'apprentissage par renforcement inverse (ARI), défini comme la recherche d'une fonction de récompense pour laquelle le comportement d'un expert (connu par le biais de démonstrations) est optimal. Nous introduisons SCIRL, un nouvel algorithme qui utilise la grandeur dénommée attribut moyen de l'expert comme la paramétrisation d'une fonction de score pour un classifieur multiclasse. Cette approche donne une fonction de récompense pour laquelle la politique de l'expert est (nous le démontrons) quasi optimale. Contrairement à la plupart des algorithmes d'ARI existants, SCIRL n'a pas besoin de résoudre le problème direct de l'apprentissage par renforcement. De plus, en utilisant une heuristique, il fonctionne avec uniquement des trajectoires échantillonnées par l'expert. Nous illustrons cela sur un simulateur de conduite.
Document type :
Journal articles
Complete list of metadata

https://hal-supelec.archives-ouvertes.fr/hal-00869723
Contributor : Sébastien van Luchene <>
Submitted on : Friday, October 4, 2013 - 9:02:07 AM
Last modification on : Tuesday, December 15, 2020 - 3:56:44 AM

Links full text

Identifiers

Collections

Citation

Edouard Klein, Bilal Piot, Matthieu Geist, Olivier Pietquin. Classification structurée pour l'apprentissage par renforcement inverse. Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, Lavoisier, 2013, 27 (2), pp.155-169. ⟨10.3166/ria.27.155-169⟩. ⟨hal-00869723⟩

Share

Metrics

Record views

251