PhD Defense: Xiaodan Chen

Xiaodan Chen defends her PhD entitled: “Multi-Scale Computational Modeling of Speech: From Acoustic Foundations to Phonological Structures and Phonemic Applications” on Friday, February 27, 2026 at La Turbine Cergy-Pontoise.
Thesis committee
- Nicolas Rougier, DR, INRIA Bordeaux, Rapporteur
- Bahia Guellaï, PR, Université Toulouse 2, Rapporteure
- Rong Tong, MCF, Singapore Institute of Technology, Examinatrice
- Dan Vodislav, PR, CY Cergy-Paris Université, Examinateur
- Mathias Quoy, PR, CY Cergy-Paris Université, Directeur de thèse
- Alexandre Pitti, PR, ENSEA, Co-directeur de thèse
- Nancy F. Chen, PI, Institute for Infocomm Research, A*Star, Co-directrice de thèse
The presentation will be given in English. For those who wish to attend remotely, a link will be provided.
Abstract (EN)
Understanding the computational and neural principles underlying speech acquisition, representation, and production is a fundamental challenge in cognitive science and artificial intelligence.
This thesis presents a unified investigation into this problem through three interconnected projects that model the hierarchy of speech processing, from early infancy to late infancy, and from early speech sound acquisition, to structural (proto-syntactic) sequence representation, and finally to neuromuscular speech production.
This journey begins with a model of infant sensorimotor development. We develop a compact and interpretable neural network to simulate early vocal learning. The model demonstrates how exposure to a native language shapes low-level auditory perception, and reveals how predictive coding, as a mechanism of continual learning during a “critical period”, facilitates attunement to native-language acoustic patterns (L1), while preserving a foundational capacity to acquire non-native (L2) distinctions. This establishes how a developmental critical period can emerge from fundamental principles of online learning, and posits the sensorimotor primitive as a core, self-organized unit of linguistic computation.
Next, we investigate how the brain organizes sequences of these sensorimotor states into structured motor sequences. A rank-order coding network, inspired by Broca’s circuit, serves as a model for this process. It exhibits proto-syntactic generalization, proving robust to superficial changes but highly sensitive to abstract rule violations, mirroring the P3b neurophysiological response to structural novelty. This work forges a crucial developmental link between early sensorimotor speech learning and the emergence of phonological structure in speech.
The final project applies this cognitive perspective to a pressing engineering problem: the scarcity of data for Voiced Electromyography-to-Speech (V-ETS) systems. We introduce a Confidence-based Multi-Speaker Self-training (CoM2S) framework. Its key innovation is a phoneme-error-based filter, which uses the categorical linguistic unit to select high-quality synthetic data, thereby overcoming the data bottleneck and enhancing speech generation.
Together, these projects form a multi-scale investigation of speech, spanning from the acquisition of sensorimotor primitives, to their organization into structured sequences, and finally to the application of the phoneme as a supervisory signal for articulatory decoding. We therefore argue that a cognitively-inspired, multi-scale approach bridging early sensorimotor learning, proto-syntactic sequencing, and applied decoding, offers a principled framework for advancing both our understanding of speech processing and our capacity to engineer robust speech technologies.
Résumé (FR)
Comment le cerveau apprend-il, représente-t-il et produit-il la parole ? Déchiffrer ces principes computationnels constitue un enjeu central tant pour les sciences cognitives que pour l’intelligence artificielle.
Cette thèse présente une étude unifiée de cette problématique à travers trois projets interconnectés qui modélisent la hiérarchie du traitement de la parole, partant de l’acquisition des sons de parole jusqu’à la représentation séquentielle structurelle, pour aboutir finalement à la production neuromusculaire de la parole.
Le premier projet modélise le développement sensorimoteur précoce. Nous développons un réseau neuronal compact et interprétable simulant l’apprentissage de la parole chez le nourrisson. Le modèle montre comment l’exposition à la langue maternelle façonne la perception auditive de base. Il révèle également le rôle du codage prédictif comme mécanisme d’apprentissage continu pendant la « période critique », permettant l’ajustement aux régularités acoustiques de la langue maternelle tout en préservant la capacité fondamentale à en acquérir d’autres. Ce projet établit les fondements d’une primitive sensorimotrice audio-articulatoire pour les traitements de niveau supérieur.
Le deuxième projet examine l’organisation de ces primitives en séquences. Nous proposons un modèle de codage par ordre de rang, inspiré du circuit de Broca, qui démontre une capacité de généralisation proto-syntaxique : robuste aux variations de surface, il reste sensible aux violations de règles abstraites, à l’instar de la réponse neurophysiologique P3b observée face à des nouveautés structurelles. Ce travail met en lumière un lien développemental crucial entre l’apprentissage sensorimoteur et l’émergence de la structure phonologique.
Le troisième projet applique ce cadre cognitif à un défi d’ingénierie : la pénurie de données pour les modèles de conversion de l’électromyographie vocale en parole (Voiced Electromyography-to-Speech, V-ETS). Nous y introduisons une méthode d’auto-apprentissage multi-locuteurs basée sur la confiance phonémique (Confidence-based Multi-Speaker Self-training, CoM2S). Son innovation principale est un filtre de sélection exploitant les unités distinctives de la langue (les phonèmes) pour identifier des données synthétiques de haute qualité, améliorant ainsi significativement les performances des systèmes V-ETS.
Collectivement, ces projets forment une étude hiérarchique de la parole : de l’acquisition des primitives sensorimotrices, à leur organisation en séquences structurées, jusqu’à l’application du phonème comme signal de supervision pour le décodage articulatoire. Ce travail démontre que des représentations ancrées dans la cognition ouvrent la voie à des technologies de la parole plus robustes et économes en données, établissant ainsi une boucle féconde entre les mécanismes cérébraux du langage et la conception de systèmes artificiels.