Objectif

L'apprentissage par renforcement est une discipline émergente extrêmement prometteuse, au-delà de l'apprentissage profond, visant à construire un agent autonome capable d'apprendre à prendre les bonnes décisions et à les expliquer, sans la contrainte de l'historique des données exigée par les techniques d'apprentissage supervisé ou non supervisé. L'agent dénué et situé dans un environnement dynamique et incertain, apprend par le paradigme « action/récompense ». Le domaine d'application est varié, allant des jeux vidéo jusqu'aux objets connectés en passant par la finance, la santé, etc. Objectif général L’objectif de ce cours est de présenter les fondements de l’apprentissage par renforcement afin de les mettre non seulement en pratique, mais aussi de découvrir les principaux défis. Objectifs spécifiques • Maîtriser les concepts et les algorithmes clés de l'apprentissage par renforcement, • Mettre en pratique les connaissances acquises pour l’analyse prédictive dans un environnement dynamique sans aucun réservoir de données, • Mener un projet d’apprentissage automatique basé sur les techniques de renforcement combiné à l’apprentissage profond.

Contenu

Principes de l’apprentissage par renforcement, paradigme action/récompense, processus de décision markovien, bandits à K bras, exploration-exploitation, planification avec un modèle connu, apprentissage par différence temporelle, algorithmes Td(0), Sarsa, Q-Learning, E-greedy, Reinforce, apprentissage par réseaux Q-profond, méthodes de gradient de politique, renforcement en ligne, renforcement multi-agents.

Mode(s) de prestation

  • Présence
  • Vidéoconférence

Pour confirmer le ou les modes d’enseignement disponibles pour une session donnée, veuillez vous référer à l’horaire du cours ci-bas.

Formules pédagogiques

Enseignement magistral

Horaire

Consulter l'horaire de ce cours