Différences Temporelles de Kalman

Résumé : Cette contribution traite de l'approximation de la fonction de valeur ainsi que de la Q-fonction dans des processus décisionnels de Markov déterministes. Un cadre de travail statistique général inspiré du filtrage de Kalman est introduit. Son principe est d'adopter une représentation paramétrique de la fonction de valeur (ou de la Q-fonction), de modéliser le vecteur de paramètres associé comme une variable aléatoire et de minimiser l'erreur quadratique sur les paramètres conditionnée aux récompenses observées depuis l'origine des temps. De ce paradigme général, que nous nommons Différences Temporelles de Kalman (KTD pour Kalman Temporal Differences), et en utilisant un schéma d'approximation appelé transformation non-parfumée, une famille d'algorithmes est dérivée, à savoir KTD-V, KTD-SARSA et KTD-Q, qui ont respectivement comme objectif l'évaluation de la fonction de valeur pour une politique donnée, l'évaluation de la Q-fonction pour une politique donnée, et l'évaluation de la Q-fonction optimal. Cette approche présente un certain nombre d'avantages tels que la capacité à prendre en compte une paramétrisation non-linéaire, l'efficacité de l'apprentissage en terme d'échantillons observés, la prise en compte d'environnements non-stationnaires ou encore la possibilité d'obtenir une information d'incertitude, que nous utiliserons pour proposer une forme d'apprentissage actif. Ces différents aspects seront discutés et illustrés au travers de plusieurs expériences.
Document type :
Conference papers
JFPDA 2009, Jun 2009, Paris, France. (20 p.), 2009
Liste complète des métadonnées


https://hal-supelec.archives-ouvertes.fr/hal-00437002
Contributor : Sébastien Van Luchene <>
Submitted on : Saturday, November 28, 2009 - 1:48:06 PM
Last modification on : Tuesday, December 1, 2009 - 11:42:16 AM
Document(s) archivé(s) le : Thursday, June 17, 2010 - 10:38:07 PM

File

Supelec512.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00437002, version 1

Collections

Citation

Matthieu Geist, Olivier Pietquin, Gabriel Fricout. Différences Temporelles de Kalman. JFPDA 2009, Jun 2009, Paris, France. (20 p.), 2009. <hal-00437002>

Share

Metrics

Record views

134

Document downloads

116