14 December 2020

Soutenance de thèse de Marie-Morgane Paumard

[TheChamp-Sharing]
Marie-Morgane Paumard soutiendra sa thèse, intitulée "Résolution automatique de puzzles par apprentissage profond" le lundi 14 décembre 2020 à l'ENSEA.

Titre de la thèse

Résolution automatique de puzzles par apprentissage profond.

Solving jigsaw puzzles with deep learning.

Date et lieu de la soutenance

Lundi 14 décembre 2020, 14h.

Visio-conférence.

Résumé

L’objectif de cette thèse est de développer des méthodes sémantiques de réassemblage dans le cadre compliqué des collections patrimoniales, où certains blocs sont érodés ou manquants.

Le remontage de vestiges archéologiques est une tâche importante pour les sciences du patrimoine : il permet d’améliorer la compréhension et la conservation des vestiges et artefacts anciens. Certains ensembles de fragments ne peuvent être réassemblés grâce aux techniques utilisant les informations de contour et les continuités visuelles. Il est alors nécessaire d’extraire les informations sémantiques des fragments et de les interpréter. Ces tâches peuvent être accomplies automatiquement grâce aux techniques d’apprentissage profond couplées à un solveur, c’est-à-dire un algorithme de prise de décision sous contraintes.

Cette thèse propose deux méthodes de réassemblage sémantique pour fragments 2D avec érosion, ainsi qu’un jeu de données et des métriques d’évaluation.

La première méthode, Deepzzle, propose un réseau de neurones auquel succède un solveur. Le réseau de neurones est composé de deux réseaux convolutionnels siamois entraînés à prédire la position relative de deux fragments : il s’agit d’une classification à 9 classes. Le solveur utilise l’algorithme de Dijkstra pour maximiser la probabilité jointe. Deepzzle peut résoudre le cas de fragments manquants et surnuméraires, est capable de traiter une quinzaine de fragments par puzzle, et présente des performances supérieures à l’état de l’art de 25%.

La deuxième méthode, Alphazzle, s’inspire d’AlphaZero et de recherche arborescente Monte Carlo (MCTS) à un joueur. Il s’agit d’une méthode itérative d’apprentissage profond par renforcement : à chaque étape, on place un fragment sur le réassemblage en cours. Deux réseaux de neurones guident le MCTS : un prédicteur d’action, qui utilise le fragment et le réassemblage en cours pour proposer une stratégie, et un évaluateur, qui est entraîné à prédire la qualité du résultat futur à partir du réassemblage en cours. Alphazzle prend en compte les relations entre tous les fragments et s’adapte à des puzzles de taille supérieure à ceux résolus par Deepzzle. Par ailleurs, Alphazzle se place dans le cadre patrimonial : en fin de réassemblage, le MCTS n’accède pas à la récompense, contrairement à AlphaZero. En effet, la récompense, qui indique si un puzzle est bien résolu ou non, ne peut être qu’estimée par l’algorithme, car seul un conservateur peut être certain de la qualité d’un réassemblage.

Abstract

The objective of this thesis is to develop semantic methods of reassembly in the complicated framework of heritage collections, where some blocks are eroded or missing.

The reassembly of archaeological remains is an important task for heritage sciences: it allows to improve the understanding and conservation of ancient vestiges and artifacts. However, some sets of fragments cannot be reassembled with techniques using contour information or visual continuities. It is then necessary to extract semantic information from the fragments and to interpret them. These tasks can be performed automatically thanks to deep learning techniques coupled with a solver, i.e., a constrained decision making algorithm.

This thesis proposes two semantic reassembly methods for 2D fragments with erosion and a new dataset and evaluation metrics.

The first method, Deepzzle, proposes a neural network followed by a solver. The neural network is composed of two Siamese convolutional networks trained to predict the relative position of two fragments: it is a 9-class classification. The solver uses Dijkstra’s algorithm to maximize the joint probability. Deepzzle can address the case of missing and supernumerary fragments, is capable of processing about 15 fragments per puzzle, and has a performance that is 25% better than the state of the art.

The second method, Alphazzle, is based on AlphaZero and single-player Monte Carlo Tree Search (MCTS). It is an iterative method that uses deep reinforcement learning: at each step, a fragment is placed on the current reassembly. Two neural networks guide MCTS: an action predictor, which uses the fragment and the current reassembly to propose a strategy, and an evaluator, which is trained to predict the quality of the future result from the current reassembly. Alphazzle takes into account the relationships between all fragments and adapts to puzzles larger than those solved by Deepzzle. Moreover, Alphazzle is compatible with constraints imposed by a heritage framework: at the end of reassembly, MCTS does not access the reward, unlike AlphaZero. Indeed, the reward, which indicates if a puzzle is well solved or not, can only be estimated by the algorithm, because only a conservator can be sure of the quality of a reassembly.

Mots clés

Apprentissage profond, Apprentissage par renforcement, Décision par parcours de graphes, Recherche arborescencte Monte Carlo à un joueur Puzzles, Sciences du patrimoine.

Key words

Deep learning, Reinforcement learning, Decision theory with graph traversal, Single player Monte Carlo Tree Search (MCTS), Jigsaw puzzles, Heritage

Composition du jury

David PICARD, Directeur de recherche, École des Ponts Paris Tech, Directeur de thèse

Aurélie BUGEAU, Maître de conférences, Université de Bordeaux, Rapporteur

Vincent LEPETIT, Directeur de recherche, École des Ponts Paris Tech, Rapporteur

Blaise HANCZAR, Professeur des Universités, Université d’Évry, Examinateur

Vicky KALOGEITON, Maître de conférences, École Polytechnique, Examinateur

Nicolas THOME, Professeur des Universités, Conservatoire national des arts et métiers, Examinateur

Hedi TABIA, Professeur des Universités, Université d’Évry, CoDirecteur de thèse

Vivien BARRIERE, Maître de conférences, CY Cergy Paris Université, Co-encadrant de thèse

14 December 2020, 14h0016h00
Visio-conférence
Marie-Morgane Paumard