caor@mines-paristech.fr

Marin Toromanoff a le plaisir de vous inviter à sa soutenance de thèse le mercredi 31 Mars 2021, à 14h. A cause des conditions actuelles, elle ne sera probablement accessible qu’en visio-conférence.

Cette thèse a été réalisée au Centre de Robotique MINES ParisTech sous la direction de Fabien Moutarde ainsi qu’avec l’entreprise Valeo et l’encadrement de Emilie Wirbel. Intitulée « Apprentissage par renforcement du contrôle d’un véhicule autonome à partir de la vision », elle sera défendue en français (le titre en anglais est « End-to-end Autonomous Driving using Deep Reinforcement Learning »).

Le jury sera composé de :
Prof. Olivier PIETQUIN – Université de Lille (INRIA/SEQUEL) et GoogleBrain (rapporteur)
Prof. Thierry CHATEAU – Université de Clermont Auvergne (rapporteur)
DR. Pierre-Yves OUDEYER – INRIA Bordeaux (examinateur)
Prof. Christian GAGNE – Université Laval (Québec CANADA) (examinateur)
DR. Rémi MUNOS – Université de Lille (INRIA/SEQUEL) et DeepMind (examinateur)
Prof. Véronique CHERFAOUI – Université de Compiègne (Québec CANADA) (examinateur)
Prof. Fabien MOUTARDE – Mines ParisTech
Docteur Emilie WIRBEL – Nvidia (anciennement Valeo)

Résumé :

« Dans cette thèse, nous abordons les défis de la conduite autonome en environnement urbain en utilisant des algorithmes d’apprentissage par renforcement profond de bout-en-bout, i.e. des données brutes des capteurs jusqu’au contrôle des actuateurs du véhicule. L’apprentissage  par  renforcement  (RL)  est  un  des  trois  grands  paradigmes  de  l’apprentissage  automatique.  Il  se distingue  de  l’apprentissage  supervisé  par  le  fait  que  les  agents  apprennent  par  essai-erreur  à  partir  d’un  signal  de récompense et non pas par simple supervision avec des paires entrée-label comme pour l’apprentissage supervisé,le type d’apprentissage le plus utilisé aujourd’hui dans les applications d’intelligence artificielle. Dans l’apprentissage par renforcement, on cherche explicitement à optimiser des séquences d’actions afin de maximiser le comportement à long terme. L’intérêt majeur du RL est que l’agent apprend de lui-même le comportement à suivre en explorant et en interagissant avec son environnement : on n’a donc pas besoin d’indiquer explicitement les actions à prendre. Dans un premier temps, nous avons proposé un nouvel algorithme de renforcement fondé sur la fonction de valeur,Rainbow-IQN Ape-X, en combinant trois articles majeurs du domaine. Cet algorithme atteint des performances au niveau de l’état de l’art sur le benchmark Atari.En utilisant cet algorithme de renforcement distribué, nous avons introduit les indices implicites, une nouvelle méthode permettant  d’entraîner  par  renforcement  des  réseaux  de  neurones  avec  bien  plus  de  paramètres  et  des  entrées  de plus grande dimension que les travaux précédents en DRL. Cette technique nous a ainsi permis de démontrer pour la première fois un algorithme de renforcement capable de conduire dans un simulateur complexe incluant des piétons, des véhicules et surtout des feux tricolores. Finalement, nous avons utilisé toutes nos contributions précédentes pour effectuer de l’apprentissage par renforcement sur données réelles pour de la conduite en environnement urbain. L’idée fondamentale de notre approche est d’utiliser un simulateur fondé sur des images réelles pour réussir à entraîner des agents capables de généraliser aux données réelles »

Comments are closed.