Filtrage bayésien de la récompense

Résumé : Une large variété de schémas d'approximation de la fonction de valeur a été appliquée à l'apprentissage par renforcement. Cependant les approches par filtrage bayésien, qui se sont pourtant montrées efficaces dans d'autres domaines comme l'apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu'à présent. Cette contribution introduit un cadre de travail général pour l'apprentissage par renforcement basé sur le filtrage bayésien, ainsi qu'une implémentation spécifique basée sur un filtre de Kalman à sigma-points et une paramétrisation par noyaux. Cela nous permet de proposer un algorithme de différences temporelles pour des espaces d'état et/ou d'action continus qui soit model-free et off-policy. Il sera illustré sur deux problèmes simples.
Document type :
Conference papers
Complete list of metadatas

https://hal-supelec.archives-ouvertes.fr/hal-00351343
Contributor : Sébastien van Luchene <>
Submitted on : Friday, January 9, 2009 - 10:04:36 AM
Last modification on : Wednesday, February 13, 2019 - 5:20:08 PM

Identifiers

  • HAL Id : hal-00351343, version 1

Collections

Citation

Matthieu Geist, Olivier Pietquin, Gabriel Fricout. Filtrage bayésien de la récompense. JFPDA 2008, Jun 2008, Metz, France. pp.113-122. ⟨hal-00351343⟩

Share

Metrics

Record views

51