Différences Temporelles de Kalman : le cas stochastique

Résumé : Les différences temporelles de Kalman (KTD pour Kalman Temporal Differences) sont un cadre de travail statistique qui traite de l'approximation de la fonction de valeur et de qualité en apprentissage par renforcement. Son principe est d'adopter une représentation paramétrique de la fonction de valeur, de modéliser les paramètres associés comme des variables aléatoires et de minimiser l'espérance de l'erreur quadratique moyenne des paramètres conditionnée à l'ensemble des récompenses observées. Ce paradigme s'est montré efficace en terme d'échantillons (i.e. convergence rapide), capable de prendre en compte la non-stationnarité ainsi que de fournir une information d'incertitude. Cependant ce cadre de travail était restreint au processus décisionnels de Markov bénéficiant de transitions déterministes. Dans cette contribution nous proposons d'étendre le modèle au transitions stochastiques à l'aide d'un bruit coloré, ce qui mène aux différences temporelles de Kalman étendues (XKTD pour eXtended KTD). L'approche proposée est illustrée sur des problèmes usuels en apprentissage par renforcement.
Document type :
Conference papers
JFPDA 2009, Jun 2009, Paris, France. (13 p.), 2009
Liste complète des métadonnées


https://hal-supelec.archives-ouvertes.fr/hal-00437006
Contributor : Sébastien Van Luchene <>
Submitted on : Saturday, November 28, 2009 - 1:46:41 PM
Last modification on : Tuesday, December 1, 2009 - 11:41:44 AM
Document(s) archivé(s) le : Thursday, June 17, 2010 - 10:39:04 PM

File

Supelec513.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00437006, version 1

Collections

Citation

Matthieu Geist, Olivier Pietquin, Gabriel Fricout. Différences Temporelles de Kalman : le cas stochastique. JFPDA 2009, Jun 2009, Paris, France. (13 p.), 2009. <hal-00437006>

Share

Metrics

Record views

126

Document downloads

60