| Type de publication : |
 |
Communications avec actes |
 |
| Domaine : |
 |
Informatique/Apprentissage
|
 |
| Titre : |
 |
Classification structurée pour l'apprentissage par renforcement inverse |
 |
| Auteur(s) : |
 |
Edouard Klein ( ) 1, 2, Bilal Piot 1, 3, Matthieu Geist ( ) 1, 3, Olivier Pietquin ( ) 1, 3 |
 |
| Laboratoire : |
 |
|
 |
| Équipe de recherche : |
 |
IMS - Equipe Information, Multimodalité et Signal |
| Résumé : |
 |
Cette contribution traite du problème de l'apprentissage par imitation par le biais de l'apprentissage par renforcement inverse (ARI). Dans ce contexte, un expert accomplit une tâche qu'un agent artificiel doit essayer de reproduire. L'ARI part du postulat que l'expert optimise avec succès une fonction de récompense ; le problème consiste à deviner cette fonction à partir de traces du comportement de l'expert. Les algorithmes d'ARI existants nécessitent une ou plusieurs des conditions suivantes pour fonctionner : trajectoires complètes de la part de l'expert, un modèle génératif pour les estimations de type Monte-Carlo, la connaissance des probabilités de transition, la capacité de résoudre le problème direct (celui de l'apprentissage par renforcement) de manière répétée ou l'accès à la strategie complète de l'expert. Notre contribution consiste en un nouvel algorithme d'ARI levant l'ensemble de ces contraintes. En utilisant une méthode supervisée dans laquelle nous introduisons implicitement la structure du processus décisionnel de Markov (PDM) sous-jacent, nous créons un algorithme basé sur une descente de sous-gradient, possèdant une faible complexité tant en échantillons que calculatoire et surtout ne nécessitant pas la résolution du problème direct. |
 |
Langue du texte intégral : |
 |
Anglais |
 |
|
| Titre de l'ouvrage : |
 |
Actes de la Conférence Francophone sur l'Apprentissage Automatique - CAp 2012 |
 |
| Audience : |
 |
nationale |
 |
| Date de publication : |
 |
05/2012 |
 |
| Page, identifiant, ... : |
 |
1-16 |
 |
|
| Titre de la conférence : |
 |
Conférence Francophone sur l'Apprentissage Automatique - CAp 2012 |
 |
| Date de la conférence : |
 |
23/05/2012 |
 |
| Date de la conférence (fin) : |
 |
25/05/2012 |
 |
| Ville : |
 |
Nancy |
 |
| Pays : |
 |
France |
 |
|
| Mots Clés : |
 |
Apprentissage par renforcement inverse – classification multi-classe – attribut vectoriel moyen |
 |
| Commentaire : |
 |
http://cap2012.loria.fr/pub/Papers/13.pdf |
 |