caor@mines-paristech.fr

Soutenance de thèse – « Localisation absolue par mono-caméra d’un véhicule en milieu urbain via l’utilisation de Street View »

La soutenance de thèse Li YU aura lieu le 6 avril 2018 à 10h00 en L118 à MINES ParisTech. La thèse est intitulée « Localisation absolue par mono-caméra d’un véhicule en milieu urbain via l’utilisation de Street View ».

Jury :

M. Patrick RIVES, INRIA Sophia Antipolis (Rapporteur)
M. Paul CHECCHIN, Institut Pascal Université Clermont Auvergne (Rapporteur)
Mme Samia BOUCHAFA, Université d’Évry-Val-d’Essonne (Examinateur)
M. Fabien MOUTARDE, MINES ParisTech (Directeur de thèse)
M. Cyril JOLY, MINES ParisTech (Examinateur)
M. Guillaume BRESSON, Institut VEDECOM (Examinateur)

Résumé :

Dans un travail réalisé au Centre de Robotique et à l’Institut VEDECOM, nous nous sommes intéressés aux systèmes robustes de localisation visuelle en milieu urbain pour la voiture autonome. Obtenir une pose exacte à partir d’une caméra monoculaire est difficile et insuffisant en terme de précision pour la voiture autonome actuelle. Plutôt que d’utiliser des approches comme la navigation par satellites, la Cartographie et Localisation Simultanées (SLAM), et les techniques de fusion de données, nous nous sommes concentrés sur l’utilisation de Systèmes d’Information Géographiques (SIG) pour concevoir une approche fiable, précise et absolue de localisation en milieu urbain.

Le développement de SIG publics nous a apporté un nouvel horizon pour résoudre le problème de la localisation, mais ses informations, telles que les cartes topologiques, sémantiques, métriques, les Street Views, les cartes de profondeur, les cartes cadastrales 3D et les cartes en haute définition, doivent être bien analysées et organisées pour extraire les informations pertinentes pour une voiture autonome. Notre première tâche consistait à concevoir une base de données hors ligne accessible par un robot à partir d’un SIG public dense, à savoir Google Maps, qui a l’avantage d’avoir une couverture mondiale. Nous générons une représentation topométrique compacte de l’environnement urbain dynamique en extrayant quatre données utiles du SIG, y compris : les topologies, les géo-coordonnées, les Street Views panoramiques et les cartes de profondeur associées. Dans le même temps, un ensemble de données en ligne a été acquis par une caméra à bas prix équipée sur les véhicules de VEDECOM. Afin de rendre les Street View sphériques compatibles avec l’imagerie en ligne, une transformation basée sur l’interpolation d’image est introduite pour obtenir des images rectilignes à partir de Street Views.

Nous proposons deux méthodes de localisation : l’une est une approche de vision par ordinateur basée sur l’extraction de caractéristiques, l’autre est une méthode d’apprentissage basée sur les réseaux de neurones convolutionnels (convnet). En vision par ordinateur, l’extraction de caractéristiques est un moyen populaire de résoudre le positionnement à partir d’images. Nous tirons parti de Google Maps et utilisons ses données topo-métriques hors ligne pour construire un positionnement grossier à fin, à savoir un processus de reconnaissance de lieu topologique puis une estimation métrique de pose par optimisation de graphe. La seule entrée de cet algorithme est une séquence d’images provenant d’une caméra monoculaire et la base de données construite à partir de Google Maps. De plus, il n’est pas nécessaire d’établir des correspondances d’image à image, ni d’utiliser l’odométrie. La méthode a été testée en environnement urbain et démontre à la fois une précision sous-métrique et une robustesse aux changements de point de vue, à l’illumination et à l’occlusion. Aussi, les résultats montrent que les emplacements éloignés de Street Views produisent une erreur significative dans la phase d’estimation métrique. Ainsi, nous proposons de synthétiser des Street Views artificielles pour compenser la densité des Street View originales et améliorer la précision.

Cette méthode souffre malheureusement d’un temps de calcul important. Étant donné que le SIG nous offre une base de données géolocalisée à l’échelle mondiale, cela nous motive à régresser des localisations globales directement à partir d’un convnet de bout en bout. La base de données hors ligne précédemment construite est encore insuffisante pour l’apprentissage d’un convnet. Pour compenser cela nous densifions la base d’origine d’un facteur mille et utilisons la méthode d’apprentissage par transfert pour faire converger notre régresseur convnet et avoir une bonne performance. Le régresseur permet également d’obtenir une localisation globale à partir d’une seule image et en temps réel.

Les résultats obtenus par ces deux approches nous fournissent des informations sur la comparaison et la relation entre les méthodes basées sur des caractéristiques et celles basées sur le convnet. Après avoir analysé et comparé les performances de localisation des deux méthodes, nous avons également abordé des perspectives pour améliorer la robustesse et la précision de la localisation face au problème de localisation urbaine assistée par SIG.

Comments are closed.