Deep reinforcement learning

CS-456 / 6 crédits

Enseignant:

Langue: Anglais

Remark: Pas donné en 2024-25

Summary

This course provides an overview and introduces modern methods for reinforcement learning (RL.) The course starts with the fundamentals of RL, such as Q-learning, and delves into commonly used approaches, like PPO and DQN. The course will introduce students to practical applications of RL.

Content

Introduction and Overview (What is RL?)

An overview of neural networks and deep learning approaches

Deep learning frameworks

Supervised learning of behaviors (behavior cloning)

Value function methods and related theory

Policy gradient methods and related theory

Actor-Critic Algorithms (A2C, A3C)

Deep RL with Q functions (DQN, R2D2)

Deep Policy Gradient and Optimization methods (PPO, TRPO, Impala, MPO)

Model-based RL and Planning (Alphago, Alphazero, Dreamer)

Exploration and credit assignment in Deep RL

Offline RL (BVE, CQL, CRR, ...)

Deep Imitation learning and Learning from demonstrations (DAGGER, DQFD, R2D3, Learning from play, Third person imitation)

RL from human feedback and alignment (InstructGPT, DPO, ReST, etc.)

Advanced continuous control approaches (DDPG, D4PG, SAC)

A selection of extra topics from:

- MPO, IMPALA

- Distributional RL

- Multi-agent RL (Centralized Training, Decentralized Execution)

Keywords

Deep learning, reinforcement learning, TD learning, SARSA, Actor-Critic Networks, policy gradients, alphago, alphastar, planning, alignment, RLHF, PPO

Learning Prerequisites

Required courses

Analysis I, II
Linear Algebra
Probability and statistics (MATH-232)
Algorithms I (CS-250)

Recommended courses

Introduction to machine learning (CS-233)
Machine learning (CS-433)

Important concepts to start the course

Regularization in machine learning,
Gradient descent. Stochastic gradient descent.
Expectation, statistics
Linear algebra and probabilities
programming

Learning Outcomes

By the end of the course, the student must be able to:

Apply Understand and define basic problems and tasks in reinforcement learning (like Markov decision process, model-based and model-free RL, on-policy vs off-policy RL)
Assess / Evaluate Formulate a real-world problem as an RL setting to apply the approaches taught in the class.
Elaborate Implement standard deep RL algorithms.
Judge Understand the failure modes of these models and learning algorithms.
Propose Read and review academic papers to understand their contributions and learn how to evaluate them critically.
Apply Students gain the skills and knowledge necessary to tackle complex problems in autonomous robotics, game-playing, and other domains through lectures, hands-on coding exercises, practical applications, and course projects.

Transversal skills

Continue to work through difficulties or initial failure to find optimal solutions.
Access and evaluate appropriate sources of information.
Write a scientific or technical report.
Manage priorities.

Teaching methods

Lectures
Lab sessions
Individual course projects
Paper reading
Group projects

Expected student activities

Work on miniproject
Solve all exercises
Attend all lectures and take notes during lecture, participate in quizzes.
If you cannot attend a lecture, then you must read the recommended book chapters
Work on a project

Assessment methods

Written final exam (25%)
Assignments (25%)
Course project (50%)

Supervision

Office hours	No
Assistants	Yes
Forum	Yes
Others

Resources

Bibliography

Textbook: Reinforcement Learning by Sutton and Barto (MIT Press). Pdfs of the preprint version of the book are availble online

Ressources en bibliothèque

Reinforcement Learning / Sutton

Moodle Link

https://go.epfl.ch/CS-456

Dans les plans d'études

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: obligatoire

Semestre: Printemps
Forme de l'examen: Ecrit (session d'été)
Matière examinée: Deep reinforcement learning
Cours: 2 Heure(s) hebdo x 14 semaines
Exercices: 1 Heure(s) hebdo x 14 semaines
Labo: 1 Heure(s) hebdo x 14 semaines
Type: optionnel

Semaine de référence

Légendes:

Cours

Exercice, TP

Projet, Labo, autre

Cours connexes

Résultats de graphsearch.epfl.ch.

	Lu	Ma	Me	Je	Ve
8-9
9-10
10-11
11-12
12-13
13-14
14-15
15-16
16-17
17-18
18-19
19-20
20-21
21-22