Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO

Lucie Daubigney 1, 2 Matthieu Geist 2 Olivier Pietquin 2
1 MAIA - Autonomous intelligent machine
Inria Nancy - Grand Est, LORIA - AIS - Department of Complex Systems, Artificial Intelligence & Robotics
2 IMS - Equipe Information, Multimodalité et Signal
UMI2958 - Georgia Tech - CNRS [Metz], SUPELEC-Campus Metz
Résumé : L'apprentissage par renforcement (AR) fait maintenant partie de l'état de l'art dans le domaine de l'optimisation de système de dialogues vocaux. La plupart des méthodes appliquées aux systèmes de dialogue basées sur l'AR, comme par exemple celles qui utilisent des processus gaussiens, requièrent de tester des changements plus ou moins aléatoires dans la politique. Cette manière de procéder est appelée apprentissage " onpolicy ". Néanmoins, celle-ci peut induire des comportements de la part du système incohérents aux yeux de l'utilisateur. Les algorithmes devraient idéalement trouver la politique optimale d'après l'observation d'interactions générées par une politique sous-optimale mais proposant un comportement cohérent à l'utilisateur : c'est l'apprentissage " off-policy ". Dans cette contribution, un algorithme efficace sur les échantillons permettant l'apprentissage off-policy et en ligne la politique optimale est proposé. Cet algorithme combiné à une représentation compacte, non-linéaire de la fonction de valeur (un perceptron multicouche) permet de gérer des systèmes à grande échelle.
Document type :
Other publications
Complete list of metadatas

https://hal-supelec.archives-ouvertes.fr/hal-00656997
Contributor : Sébastien van Luchene <>
Submitted on : Thursday, January 5, 2012 - 4:17:04 PM
Last modification on : Wednesday, July 31, 2019 - 4:18:03 PM
Long-term archiving on : Monday, November 19, 2012 - 12:30:27 PM

File

RFIA_2012_LDMGOP.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00656997, version 1

Citation

Lucie Daubigney, Matthieu Geist, Olivier Pietquin. Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO. Actes du 18ème congrès francophone sur la Reconnaissance de Formes et l'Intelligence Artificielle (RFIA 2012), 2012, pp.1-8. ⟨hal-00656997⟩

Share

Metrics

Record views

537

Files downloads

516