Soutenance de thèse de Kevin Hoang

Titre de la thèse

Exploration et reconnaissance active de scènes visuelle.

Date et lieu de soutenance

13 janvier 2021, à 14h.

Visio-conférence.

Résumé

L’analyse d’une scène visuelle devient un passage obligé pour la réalisation d’un grand nombre de systèmes « intelligents ». Cette analyse se fait principalement par le biais de techniques d’analyse dites « passives » de l’image et les performances dépendent de la qualité des bases de données d’images préalablement établies ou de modèles ad hoc des objets à reconnaître.

Les performances remarquables des approches de Deep Learning ouvrent la voie à des approches parallèles très performantes mais limitées notamment sur deux aspects : la rigidité du modèle (l’ajout d’une classe nécessitant un ré-entraînement complet du réseau) et l’efficacité énergétique, rendant compliqué son usage sur une plateforme embarquée.

Dans ce travail, nous proposons une approche active de la reconnaissance de scène visuelle inspirée de la vision des mammifères. Nous validons cette stratégie pour de la détection d’objet dans des images naturelles complexes et occultées. L’évaluation de notre modèle nous permet de mettre en évidences ses qualités pour une implementation sur un robot robot mobile autonome. Il nous permet d’avoir un système de reconnaissance visuel léger, capable d’apprendre à reconnaitre des objets en temps réel, et de manière incrémentale. Dans un deuxième temps, nous explorons comment l’apprentissage d’un trajet de saccades visuelles (“scanpath”) peut optimiser le processus d’exploration visuelle. Nous évaluons en particulier l’impact sur les performances de reconnaissance, et la vitesse d’éxécution. Finalement, nous étudions ce qu’une représentation par spike peut apporter dans notre application: nous modélisons l’exploration visuelle d’une image par un train de spike et utlisons une règle de type STDP afin d’apprendre un scanpath à partir d’une séquence de données sensorimotrices générée lors du processus d’analyse visuelle.

Les résultats préliminaires de cette expérience nous permettent de réfléchir sur les gains d’une telle représentation dans un modèle dynamique et d’ouvrir sur de possibles utilisations d’un hardware parallèle.

Jury

  • David Filliat, Professeur des Universités, ENSTA Paris, Rapporteur
  • Michel Paindavoine, Professeur des Universités, Univ. Bourgogne Franche-comté, Rapporteur
  • Anne Guérin-Duguet, Professeur des Universités, Univ. de Grenoble, Examinatrice
  • Simon Thorpe, Directeur de recherches, CERCO/Univ. Toulouse III – Paul Sabatier, Examinateur
  • Jean-Emmanuel Haugeard, Ingénieur R&D, Thales GTS SIX, Examinateur
  • Alexandre Pitti, Maître de conférences, CY Cergy Paris Université, Encadrant
  • Philippe Gaussier, Professeur des Universités, CY Cergy Paris Université, Directeur de thèse