. Dans, A partir de ce cadre, nous dérivons un algorithme appelé RCAL pour le problème d'AI qui est capable de prendre en compte la structure du PDM pour obtenir une meilleure performance qu'un algorithme de classification pure Cet algorithme a uniquement besoin d'un ensemble de couples état-action experts et d'un ensemble d'exemples de transitions du PDM. De plus, il ne nécessite pas la résolution itérée de PDM ou de connaître entièrement la dynamique du problème. Toutefois, si la dynamique est connue, il est aussi possible d'utiliser l'algorithme appelé MBRCAL qui prend en entrée un ensemble de couples état-action experts. D'autre part, nous avons illustré notre approche via une tâche générique que sont les Garnets et sur un problème plus complexe qu'est le simulateur de trafic routier . Nous avons montré que notre algorithme peut avoir de meilleures performance que des algorithmes d'ARI existants si l'ensemble des exemples de transitions du PDM est assez grand. Finalement, il y a plusieurs perspectives intéressantes que nous souhaitons étudier dans un futur proche. La première est le choix automatique des attributs vectoriels permettant la représentation de Q pour un problème à partir d'un ensemble de données. Cela pourrait être réalisé avec une méthode de boosting. La seconde perspective serait de proposer un algorithme pratique d'ARI en trouvant une approximation?Japproximation? approximation?J * Q

A. P. Ng-a, Apprenticeship learning via inverse reinforcement learning, Proceedings of the 21st International Conference on Machine Learning (ICML), 2004.

A. T. Mckinnon-k and . Thomas-l, On the generation of markov decision processes, Journal of the Operational Research Society, 1995.

A. C. Schaal-s, Robot learning from demonstration, Proceedings of the 14th International Conference on Machine Learning (ICML), 1997.

B. A. Classification-régularisée-par-la-récompense and K. J. Peters-j, Relative entropy inverse reinforcement learning, JMLR Workshop and Conference Proceedings, 2011.

E. T. and P. M. Poggio-t, Regularization networks and support vector machines, Advances in Computational Mathematics, vol.13, issue.1, pp.1-50, 2000.

K. E. Geist-m and P. B. Pietquin-o, Inverse reinforcement learning through structured classification, Advances in Neural Information Processing Systems 25 (NIPS), 2012.

L. J. Zadrozny-b, Relating reinforcement learning performance to classification performance, Proceedings of the 22nd International Conference on Machine Learning (ICML), 2005.

M. F. Lopes-m, Learning from demonstration using mdp induced metrics, Proceedings of the European Conference on Machine Learning (ECML), 2010.

M. F. Lopes-m and . Ferreira-r, Analysis of inverse reinforcement learning with perturbed demonstrations, Proceedings of the 19th European Conference on Artificial Intelligence (ECAI), 2010.

N. G. Szepesvári-c, Training parsers by inverse reinforcement learning, Machine learning, vol.77, issue.2, 2009.

S. N. and K. K. Ruszcaynski-a, Minimization methods for non-differentiable functions, 1985.

S. U. Bowling-m and . Schapire-r, Apprenticeship learning using linear programming, Proceedings of the 25th International Conference on Machine Learning (ICML), 2008.

S. U. Schapire-r, A game-theoretic approach to apprenticeship learning, Advances in Neural Information Processing Systems 21 (NIPS), 2008.

S. U. Schapire-r, A reduction from apprenticeship learning to classification, Advances in Neural Information Processing Systems 23 (NIPS), 2010.

T. B. , C. V. , and K. D. Guestrin-c, Learning structured prediction models : A large margin approach, Proceedings of the 22nd International Conference on Machine Learning (ICML), 2005.