caor@mines-paristech.fr

Soutenance de thèse – Grégoire Dupont de Dinechin

Grégoire Dupont de Dinechin a le plaisir de vous inviter à sa soutenance de thèse, intitulée « Vers l’observation confortable, en réalité virtuelle, d’environnements virtuels créés à partir de photos du monde réel », et défendue en anglais sous le titre « Towards comfortable virtual reality viewing of virtual environments created from photographs of the real world ». Cette thèse a été réalisée au Centre de Robotique (CAOR) de MINES ParisTech, Université PSL sous la direction d’Alexis PALJIC.

La soutenance aura lieu le vendredi 18 décembre 2020 à 14h, et sera diffusée depuis l’amphi L109 de MINES ParisTech, Université PSL (60 boulevard Saint-Michel, 75006 Paris).La diffusion en ligne pourra être suivie au lien suivant : https://www.twitch.tv/dinechingreg.

Le jury est composé de :

  • M. Anatole LÉCUYER – Directeur de recherche, Inria Rennes (rapporteur)
  • M. Anthony STEED – Professor, University College London (rapporteur)
  • Mme Selma RIZVIĆ – Professor, University of Sarajevo (examinateur)
  • M. Diego GUTIERREZ – Professor, Universidad de Zaragoza (examinateur)
  • M. Jean-Philippe FARRUGIA – Maître de conférences, Université Lyon 1 (examinateur)
  • M. Alexis PALJIC – Chargé de recherche, MINES ParisTech, Université PSL (examinateur)

Résumé
La reconstitution en réalité virtuelle de lieux, personnes, et objets réels ouvre la voie à de nombreux usages, tels que préserver et promouvoir des sites culturels, générer des avatars photoréalistes pour se retrouver virtuellement avec famille et amis à distance, ou encore recréer des lieux ou situations spécifiques à des fins thérapeutiques ou de formation. Tout cela s’appuie sur notre capacité à transformer des images du monde réel (photos et vidéos) en environnements 360° immersifs et objets 3D interactifs.
Cependant, ces environnements virtuels à base d’images demeurent souvent imparfaits, et peuvent ainsi rendre le visionnage en réalité virtuelle inconfortable pour les utilisateurs. En particulier, il est difficile de reconstituer avec précision la géométrie d’une scène réelle, et souvent de nombreuses approximations sont ainsi faites qui peuvent être source d’inconfort lors de l’observation ou du déplacement. De même, il est difficile de restituer fidèlement l’aspect visuel de la scène: les méthodes classiques ne peuvent ainsi restituer certains effets visuels complexes tels que transparence et réflexions spéculaires, tandis que les algorithmes de rendu plus spécialisés ont tendance à générer des artefacts visuels et peuvent être source de latence. Par ailleurs, ces problèmes deviennent d’autant plus complexes lorsqu’il s’agit de reconstituer des personnes, l’oeil humain étant très sensible aux défauts dans l’apparence ou le comportement de personnages virtuels.
Par conséquent, l’objectif de cette thèse est d’étudier les méthodes permettant de rendre les utilisateurs plus confortables lors du visionnage immersif de reconstitutions digitales du monde réel, par l’amélioration et le développement de nouvelles méthodes de création d’environnements virtuels à partir de photos. Nous démontrons et évaluons ainsi des solutions permettant (1) de fournir une meilleure parallaxe de mouvement lors du visionnage d’images 360°, par le biais d’une interface immersive pour l’estimation de cartes de profondeur, (2) de générer automatiquement des agents virtuels 3D capables d’interaction à partir de vidéos 360°, en combinant des réseaux convolutionnels pré-entrainés, et (3) de restituer des effets visuels de façon photoréaliste en réalité virtuelle, par le développement d’outils que nous appliquons ensuite pour recréer virtuellement la collection d’un musée de minéralogie. Nous évaluons chaque approche par le biais d’études utilisateur, et rendons notre code accessible sous forme d’outils open source.

Abstract
There are many applications to capturing and digitally recreating real-world people and places for virtual reality (VR), such as preserving and promoting cultural heritage sites, placing users face-to-face with faraway family and friends, and creating photorealistic replicas of specific locations for therapy and training. This is typically done by transforming sets of input images, i.e. photographs and videos, into immersive 360° scenes and interactive 3D objects.
However, such image-based virtual environments are often flawed such that they fail to provide users with a comfortable viewing experience. In particular, accurately recovering the scene’s 3D geometry is a difficult task, causing many existing approaches to make approximations that are likely to cause discomfort, e.g. as the scene appears distorted or seems to move with the viewer during head motion. In the same way, existing solutions most often fail to accurately render the scene’s visual appearance in a comfortable fashion. Standard 3D reconstruction pipelines thus commonly average out captured view-dependent effects such as specular reflections, whereas complex image-based rendering algorithms often fail to achieve VR-compatible framerates, and are likely to cause distracting visual artifacts outside of a small range of head motion. Finally, further complications arise when the goal is to virtually recreate people, as inaccuracies in the appearance of the displayed 3D characters or unconvincing responsive behavior may be additional sources of unease.
Therefore, in this thesis, we investigate the extent to which users can be made more comfortable when viewing digital replicas of the real world in VR, by enhancing, combining, and designing new solutions for creating virtual environments from input sets of photographs. We thus demonstrate and evaluate solutions for (1) providing motion parallax during the viewing of 360° images, using a VR interface for estimating depth information, (2) automatically generating responsive 3D virtual agents from 360° videos, by combining pre-trained deep learning networks, and (3) rendering captured view-dependent effects at high framerates in a game engine widely used for VR development, which we apply to digitally recreate a museum’s mineralogy collection. We evaluate and discuss each approach by way of user studies, and make our codebase available as an open-source toolkit.

Comments are closed.