CS-456 / 6 crédits

Enseignant: Gulcehre Caglar

Langue: Anglais


Summary

This course provides an overview and introduces modern methods for reinforcement learning (RL.) The course starts with the fundamentals of RL, such as Q-learning, and delves into commonly used approaches, like PPO and DQN. The course will introduce students to practical applications of RL.

Content

  • Introduction and Overview (What is RL?)
  • An overview of neural networks and deep learning approaches
  • Deep learning frameworks
  • Supervised learning of behaviors (behavior cloning)

  • Value function methods and related theory
  • Policy gradient methods and related theory
  • Actor-Critic Algorithms (A2C, A3C)
  • Deep RL with Q functions (DQN, R2D2)
  • Deep Policy Gradient and Optimization methods (PPO, TRPO, Impala, MPO)
  • Model-based RL and Planning (Alphago, Alphazero, Dreamer)
  • Exploration and credit assignment in Deep RL
  • Offline RL (BVE, CQL, CRR, ...)
  • Deep Imitation learning and Learning from demonstrations (DAGGER, DQFD, R2D3, Learning from play, Third person imitation)
  • RL from human feedback and alignment (InstructGPT, DPO, ReST, etc.)
  • Advanced continuous control approaches (DDPG, D4PG, SAC)
  • A selection of extra topics from:

- MPO, IMPALA

- Distributional RL

- Multi-agent RL (Centralized Training, Decentralized Execution)

Keywords

Deep learning, reinforcement learning, TD learning, SARSA, Actor-Critic Networks, policy gradients, alphago, alphastar, planning, alignment, RLHF, PPO

Learning Prerequisites

Required courses

  • Analysis I, II
  • Linear Algebra
  • Probability and statistics (MATH-232)
  • Algorithms I (CS-250)

 

Recommended courses

  • Introduction to machine learning (CS-233)
  • Machine learning (CS-433)

Important concepts to start the course

  • Regularization in machine learning,
  • Gradient descent. Stochastic gradient descent.
  • Expectation, statistics
  • Linear algebra and probabilities
  • programming

Learning Outcomes

By the end of the course, the student must be able to:

  • Apply Understand and define basic problems and tasks in reinforcement learning (like Markov decision process, model-based and model-free RL, on-policy vs off-policy RL)
  • Assess / Evaluate Formulate a real-world problem as an RL setting to apply the approaches taught in the class.
  • Elaborate Implement standard deep RL algorithms.
  • Judge Understand the failure modes of these models and learning algorithms.
  • Propose Read and review academic papers to understand their contributions and learn how to evaluate them critically.
  • Apply Students gain the skills and knowledge necessary to tackle complex problems in autonomous robotics, game-playing, and other domains through lectures, hands-on coding exercises, practical applications, and course projects.

Transversal skills

  • Continue to work through difficulties or initial failure to find optimal solutions.
  • Access and evaluate appropriate sources of information.
  • Write a scientific or technical report.
  • Manage priorities.

Teaching methods

  • Lectures
  • Lab sessions
  • Individual course projects
  • Paper reading
  • Group projects

Expected student activities

  • Work on miniproject
  • Solve all exercises
  • Attend all lectures and take notes during lecture, participate in quizzes.
  • If you cannot attend a lecture, then you must read the recommended book chapters
  • Work on a project

 

Assessment methods

  • Written final exam (25%)
  • Assignments (25%)
  • Course project (50%)

Supervision

Office hours No
Assistants Yes
Forum Yes
Others

Resources

Bibliography

  • Textbook: Reinforcement Learning by Sutton and Barto (MIT Press). Pdfs of the preprint version  of the book are availble online

Ressources en bibliothèque

Moodle Link

Dans les plans d'études

  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: obligatoire
  • Semestre: Printemps
  • Forme de l'examen: Ecrit (session d'été)
  • Matière examinée: Deep reinforcement learning
  • Cours: 2 Heure(s) hebdo x 14 semaines
  • Exercices: 1 Heure(s) hebdo x 14 semaines
  • Labo: 1 Heure(s) hebdo x 14 semaines
  • Type: optionnel

Semaine de référence

Jeudi, 8h - 10h: Cours GCC330
CO2

Jeudi, 10h - 11h: Exercice, TP SG0211
SG0213
CO121
CO122

Jeudi, 11h - 12h: Projet, labo, autre SG0211
SG0213
CO121
CO122

Cours connexes

Résultats de graphsearch.epfl.ch.