s'authentifier
version française rss feed
HAL : hal-00701947, version 1

Fiche concise  Récupérer au format
Classification structurée pour l'apprentissage par renforcement inverse
Klein E., Piot B., Geist M., Pietquin O.
Dans Actes de la Conférence Francophone sur l'Apprentissage Automatique - CAp 2012 - Conférence Francophone sur l'Apprentissage Automatique - CAp 2012, Nancy : France (2012) - http://hal-supelec.archives-ouvertes.fr/hal-00701947
Communications avec actes
Informatique/Apprentissage
Classification structurée pour l'apprentissage par renforcement inverse
Edouard Klein () 1, 2, Bilal Piot 1, 3, Matthieu Geist () 1, 3, Olivier Pietquin () 1, 3
1 :  SUPELEC-Campus Metz
http://www.metz.supelec.fr/metz/
SUPELEC
2 rue Edouard Belin 57070 Metz
France
2 :  ABC (Apprentissage et Biologie Computationnelle) (LORIA)
CNRS : UMR7503 – INRIA – Université Henri Poincaré - Nancy I – Université Nancy II – Institut National Polytechnique de Lorraine (INPL)
France
3 :  Georgia Tech - CNRS (UMI2958)
http://www.umi2958.eu
CNRS : UMI2958 – Georgia Institute of Technology Atlanta – Georgia Tech Lorraine – SUPELEC – Université de Franche-Comté – Université Paul Verlaine - Metz – Ecole Nationale Supérieure des Arts et Metiers Metz
Metz Technopôle 2-3 rue Marconi 57070 METZ
France
IMS - Equipe Information, Multimodalité et Signal
Cette contribution traite du problème de l'apprentissage par imitation par le biais de l'apprentissage par renforcement inverse (ARI). Dans ce contexte, un expert accomplit une tâche qu'un agent artificiel doit essayer de reproduire. L'ARI part du postulat que l'expert optimise avec succès une fonction de récompense ; le problème consiste à deviner cette fonction à partir de traces du comportement de l'expert. Les algorithmes d'ARI existants nécessitent une ou plusieurs des conditions suivantes pour fonctionner : trajectoires complètes de la part de l'expert, un modèle génératif pour les estimations de type Monte-Carlo, la connaissance des probabilités de transition, la capacité de résoudre le problème direct (celui de l'apprentissage par renforcement) de manière répétée ou l'accès à la strategie complète de l'expert. Notre contribution consiste en un nouvel algorithme d'ARI levant l'ensemble de ces contraintes. En utilisant une méthode supervisée dans laquelle nous introduisons implicitement la structure du processus décisionnel de Markov (PDM) sous-jacent, nous créons un algorithme basé sur une descente de sous-gradient, possèdant une faible complexité tant en échantillons que calculatoire et surtout ne nécessitant pas la résolution du problème direct.
Anglais

Actes de la Conférence Francophone sur l'Apprentissage Automatique - CAp 2012
nationale
05/2012
1-16

Conférence Francophone sur l'Apprentissage Automatique - CAp 2012
23/05/2012
25/05/2012
Nancy
France

Apprentissage par renforcement inverse – classification multi-classe – attribut vectoriel moyen
http://cap2012.loria.fr/pub/Papers/13.pdf
Liste des fichiers attachés à ce document : 
PDF
Cap13.pdf(381.2 KB)