Différences Temporelles de Kalman : le cas stochastique

Matthieu Geist; Olivier Pietquin; Gabriel Fricout

Conference Papers Year : 2009

Différences Temporelles de Kalman : le cas stochastique

(1, 2) , (2) , (1)

1
2

Matthieu Geist

Function : Author
PersonId : 6945
IdHAL : matthieu-geist

ArcelorMittal Maizières Research SA

SUPELEC-Campus Metz

Olivier Pietquin

Function : Author
PersonId : 4024
IdHAL : olivier-pietquin
ORCID : 0000-0002-5386-465X
IdRef : 142821861

SUPELEC-Campus Metz

Gabriel Fricout

Function : Author

ArcelorMittal Maizières Research SA

Abstract

Les différences temporelles de Kalman (KTD pour Kalman Temporal Differences) sont un cadre de travail statistique qui traite de l'approximation de la fonction de valeur et de qualité en apprentissage par renforcement. Son principe est d'adopter une représentation paramétrique de la fonction de valeur, de modéliser les paramètres associés comme des variables aléatoires et de minimiser l'espérance de l'erreur quadratique moyenne des paramètres conditionnée à l'ensemble des récompenses observées. Ce paradigme s'est montré efficace en terme d'échantillons (i.e. convergence rapide), capable de prendre en compte la non-stationnarité ainsi que de fournir une information d'incertitude. Cependant ce cadre de travail était restreint au processus décisionnels de Markov bénéficiant de transitions déterministes. Dans cette contribution nous proposons d'étendre le modèle au transitions stochastiques à l'aide d'un bruit coloré, ce qui mène aux différences temporelles de Kalman étendues (XKTD pour eXtended KTD). L'approche proposée est illustrée sur des problèmes usuels en apprentissage par renforcement.

Domains

Machine Learning [cs.LG]

Fichier principal

Supelec513.pdf (408.19 Ko)

Origin : Files produced by the author(s)

Sébastien Van Luchene : Connect in order to contact the contributor

https://centralesupelec.hal.science/hal-00437006

Submitted on : Saturday, November 28, 2009-1:46:41 PM

Last modification on : Tuesday, February 14, 2023-3:35:28 AM

Long-term archiving on: Thursday, June 17, 2010-10:39:04 PM

Dates and versions

hal-00437006 , version 1 (28-11-2009)

Identifiers

HAL Id : hal-00437006 , version 1

Cite

Matthieu Geist, Olivier Pietquin, Gabriel Fricout. Différences Temporelles de Kalman : le cas stochastique. JFPDA 2009, Jun 2009, Paris, France. (13 p.). ⟨hal-00437006⟩

Export

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

SUPELEC CENTRALESUPELEC

51 View

105 Download

Différences Temporelles de Kalman : le cas stochastique

Abstract

Domains

Dates and versions

Identifiers

Cite

Export

Collections

Share