Classification structurée pour l'apprentissage par renforcement inverse - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle Année : 2013

Classification structurée pour l'apprentissage par renforcement inverse

Résumé

Cette contribution traite le problème de l'apprentissage par renforcement inverse (ARI), défini comme la recherche d'une fonction de récompense pour laquelle le comportement d'un expert (connu par le biais de démonstrations) est optimal. Nous introduisons SCIRL, un nouvel algorithme qui utilise la grandeur dénommée attribut moyen de l'expert comme la paramétrisation d'une fonction de score pour un classifieur multiclasse. Cette approche donne une fonction de récompense pour laquelle la politique de l'expert est (nous le démontrons) quasi optimale. Contrairement à la plupart des algorithmes d'ARI existants, SCIRL n'a pas besoin de résoudre le problème direct de l'apprentissage par renforcement. De plus, en utilisant une heuristique, il fonctionne avec uniquement des trajectoires échantillonnées par l'expert. Nous illustrons cela sur un simulateur de conduite.

Dates et versions

Identifiants

Citer

Edouard Klein, Bilal Piot, Matthieu Geist, Olivier Pietquin. Classification structurée pour l'apprentissage par renforcement inverse. Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, 2013, 27 (2), pp.155-169. ⟨10.3166/ria.27.155-169⟩. ⟨hal-00869723⟩
53 Consultations
0 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More