Gestion de l'incertitude dans le cadre de l'approximation de la fonction de valeur pour l'apprentissage par renforcement - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Gestion de l'incertitude dans le cadre de l'approximation de la fonction de valeur pour l'apprentissage par renforcement

Matthieu Geist
Olivier Pietquin

Résumé

Le dilemme entre exploration et exploitation est un problème important en apprentissage par renforcement (AR). Les approches associées les plus efficaces utilisent généralement une information d'incertitude des valeurs estimées pendant l'apprentissage. D'un autre côté, la prise en compte de grands espaces d'état est problématique en AR et l'approximation de la fonction de valeur est devenue un domaine de recherche important. Ces deux problèmes co-existent dans la plupart des applications. Cependant, peu d'approches permettent à la fois d'approcher la fonction de valeur et d'en déduire une information d'incertitude sur les estimations. Dans cet article, nous montrons comment une telle information d'incertitude se déduit naturellement d'un cadre de travail basé sur les différences temporelles et le filtrage de Kalman. Nous introduisons un schéma d'apprentissage actif pour un algorithme du second ordre du type itération de la valeur (nommément KTD-Q). Nous proposons également l'adaptation de quelques méthodes traitant du dilemme entre exploration et exploitation initialement conçues pour le cas tabulaire.
Fichier non déposé

Dates et versions

hal-00553895 , version 1 (10-01-2011)

Identifiants

  • HAL Id : hal-00553895 , version 1

Citer

Matthieu Geist, Olivier Pietquin. Gestion de l'incertitude dans le cadre de l'approximation de la fonction de valeur pour l'apprentissage par renforcement. CAP 2010, May 2010, Clermont-Ferrand, France. pp.101-112. ⟨hal-00553895⟩
33 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More