Dynamic optimization and reinforcement learning


Objectif

Les problèmes d'optimisation dynamique s'intéressent aux propriétés des systèmes dynamiques évoluant de manière déterministe ou dans  un environnement d'incertitude, et sur lesquels on peut agir/guider au moyen d'un contrôle afin d'optimiser un certain critère (contrôle optimal). Les origines et applications sont très diverses : ingénierie (fusée: contrôle de trajectoire), mécanique (voiture: tourner le volant, pédale d'accélérateur),  gestion, économie ou finance,  apprentissage automatique, jeux vidéo, robotique, etc 

 

L'objectif de ce cours est de présenter les outils et différentes approches mathématiques de base de la théorie du contrôle optimal,  notamment de la programmation dynamique, et de les illustrer par des applications concrètes notamment en économie et finance. La première partie concernera le cadre déterministe, et la seconde portera sur le cadre stochastique avec une introduction aux aspects théoriques et algorithmiques de l'apprentissage par renforcement.

Plan

Partie 1 – Optimisation déterministe

  1. Introduction : modèle à temps discret
  2. Approche par programmation dynamique en temps continu
  3. Principe du maximum de Pontryagin en temps continu

Partie 2 – Introduction à l’optimisation stochastique en temps discret et à l'apprentissage par renforcement 

  1. Introduction
  2. Processus de décision Markovien
  3. Principe d'optimalité de Bellman
  4. Algorithmes d'apprentissage par renforcement

Références

Part I

  1. Carlier G. Programmation dynamique, notes de cours de l'ENSAE, 2007.
  2. Fleming W.H. et Rishel R.W. (1975), Deterministic and Stochastic Optimal Control, Springer-Verlag.
  3. Kamien M. et N. Schwartz: Dynamic Optimization, 1991, 2ème édition, North Holland.
  4. Trélat E. : Contrôle optimal : théorie et applications, 2008, Vuibert, 2nde édition.

Part II

  1. Bauerle, N. et U. Rieder (2011): Markov Decision Processes with Applications to Finance, Springer
  2. Sutton et Barto (1998): Introduction to Reinforcement Learning.
  3. Szepesvari (2009): Algorithms for Reinforcement Learning.
  4. Groupe PDMIA (2008): Processus décisionnels de Markov en intelligence artificielle.