caor@mines-paristech.fr

Analyse des mouvements et gestes des piétons via caméra embarquée pour la prédiction de leurs intentions

Description DU TRAVAIL DE RECHERCHE

Contexte & Etat de l’art

Dans le cadre d’une collaboration avec l’Institut Vedecom, le Centre de Robotique MINES ParisTech propose une thèse intitulée « Analyse des mouvements et gestes des piétons via caméra embarquée pour la prédiction de leurs intentions».

Le véhicule autonome est un enjeu majeur de la mobilité de demain. Des avancées sont réalisées tous les jours pour parvenir à sa réalisation ; il reste cependant de nombreux problèmes à résoudre pour parvenir à un résultat sûr vis-à-vis des utilisateurs de la route les plus vulnérables, et notamment les piétons.
En effet, détecter et comprendre le comportement d’un être humain du point de vue du véhicule autonome est essentiel pour que celui-ci puisse prendre les bonnes décisions. Une solution simple consiste à s’arrêter dès que la situation devient critique ou qu’un piéton se trouve « proche » du véhicule. Cette solution reste cependant très loin d’être satisfaisante en termes d’efficience et de qualité de service.
La résurgence des réseaux de neurones depuis une dizaine d’année due à l’explosion de la capacité de calculs apportée par les GPU fournit aujourd’hui de nouvelles solutions pour aborder certains problèmes impossibles à résoudre par des approches classiques. Parmi ces solutions se trouvent des classifieurs, des estimateurs, etc. qui utilisent des entrées complexes (images, vidéos, nuages de points) et qui sont capables de prédire de façon satisfaisante (> 95%) la nature de l’objet ou des indicateurs impossibles à définir autrement (du moins avec la même efficacité en terme de temps de calculs).

C’est dans ce contexte que s’inscrit le sujet défini ici.

OBJECTIFS

A partir des travaux déjà réalisés sur la détection et l’identification de squelettes dans l’image (OpenPose, …), l’objectif de ces travaux sera de définir une solution exploitant l’information caméra (domaine image) et reposant sur les réseaux de neurones pour concevoir un système capable de comprendre l’intention d’un piéton en fonction de sa gestuelle (pas pressés, attention du piéton vis-à-vis de son environnement, …) et de définir à partir de celle-ci la localisation future du piéton de manière à déterminer s’il est susceptible de représenter un obstacle pour le véhicule autonome ou non.
La solution se composera d’un ou plusieurs réseaux de neurones (détection du piéton, détection de son squelette, prédiction de son comportement, …) et devra être de prendre en compte l’aspect temporel (positions passées du piéton, etc.).

Suite à des travaux issues de la thèse d’Olivier Huynh au CAOR, au cadre le projet BGLE-EMMA (Briques généralistes pour les logiciels embarqués), concernant la reconnaissance de personnes suivant leurs silhouettes. A présent, le CAOR mène un projet innovant sur l’analyse de scène sportive (match de football, tennis). Il s’agit de la détection et du suivi de personnes par vision mono-caméra et par apprentissage profond. Les éléments discriminants étant les articulations et les membres (donc le squelette).

L’apprentissage est effectué sur une base de données très grande (Coco-Dataset), contenant des corps, membres, visages humains, annotés et régularisés dans un format standard. Le suivi automatique permet l’analyse statistique des matchs, mais aussi du geste sportif.

Les pistes d’investigation que nous proposerons sont les suivantes :
– L’analyse macroscopique par apprentissage des trajectoires symboliques (grilles d’occupation, par exemple) des personnes sur le bord de la route, afin de pouvoir prédire les déplacements et les changements de direction ainsi que d’expliquer, à posteriori, les défaillances. Il s’agit des analyses proches de ce qu’on appelle l’analyse de démarche, jeux de situations destinés à améliorer la prédictibilité des piétons, mais pas seulement.
– L’analyse des événements ou comportements anormaux (chute de personne, mouvement de foule, etc.), domaine très sensible pour la conduite autonome, permettant par exemple, l’arrêt en situation d’urgence.

p1p2p3p4

Ci-dessus, on peut apercevoir quelques images correspondant à des différentes vues-caméras, sur lesquelles nous avons utilisé la même famille d’algorithmes de détection des parties du corps humain, que pour l’analyse de scène sportive.

Nous proposerons, par la suite, d’utiliser les réseaux profonds de type Mask-R-CNN pour apprendre les silhouettes humaines en même temps que leur segmentation (détourage), sur la même base de données.

Ces algorithmes peuvent facilement être étendus aux applications de réalité augmentée et ses briques peuvent servir à d’autres fonctionnalités des véhicules autonomes.

Profil DU CANDIDAT(E) RECHERCHE 

          DIPLÔME: Le candidat devra être titulaire d’un Master 2 dans le domaine de l’informatique, des mathématiques appliquées ou d’un autre domaine connexe.

COMPETENCES: Des compétences en vision par ordinateur et machine learning (OpenCV, Framework Deep Learning, Python ou C++) seraient appréciées.

Références BIBLIOGRAPHIQUES

Cette thèse débutera en Octobre 2018, pour une période de 3 ans.

CANDIDATURE : Pour toute candidature, veuillez envoyer CV + lettre de motivation à :

Bogdan Stanciulescu : bogdan.stanciulescu@mines-paristech.fr

         Fabien Moutarde : fabien.moutarde@mines-paristech.fr

         Steve Pechberti: steve.pechberti@vedecom.fr

         Guillaume Bresson : guillaume.bresson@vedecom.fr

 

Comments are closed.