BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//Etis - ECPv6.15.20//NONSGML v1.0//EN
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-ORIGINAL-URL:https://www.etis-lab.fr
X-WR-CALDESC:Events for Etis
REFRESH-INTERVAL;VALUE=DURATION:PT1H
X-Robots-Tag:noindex
X-PUBLISHED-TTL:PT1H
BEGIN:VTIMEZONE
TZID:Europe/Paris
BEGIN:DAYLIGHT
TZOFFSETFROM:+0100
TZOFFSETTO:+0200
TZNAME:CEST
DTSTART:20250330T010000
END:DAYLIGHT
BEGIN:STANDARD
TZOFFSETFROM:+0200
TZOFFSETTO:+0100
TZNAME:CET
DTSTART:20251026T010000
END:STANDARD
BEGIN:DAYLIGHT
TZOFFSETFROM:+0100
TZOFFSETTO:+0200
TZNAME:CEST
DTSTART:20260329T010000
END:DAYLIGHT
BEGIN:STANDARD
TZOFFSETFROM:+0200
TZOFFSETTO:+0100
TZNAME:CET
DTSTART:20261025T010000
END:STANDARD
BEGIN:DAYLIGHT
TZOFFSETFROM:+0100
TZOFFSETTO:+0200
TZNAME:CEST
DTSTART:20270328T010000
END:DAYLIGHT
BEGIN:STANDARD
TZOFFSETFROM:+0200
TZOFFSETTO:+0100
TZNAME:CET
DTSTART:20271031T010000
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
DTSTART;TZID=Europe/Paris:20260227T090000
DTEND;TZID=Europe/Paris:20260227T113000
DTSTAMP:20260421T094621
CREATED:20260213T133948Z
LAST-MODIFIED:20260213T134050Z
UID:9888-1772182800-1772191800@www.etis-lab.fr
SUMMARY:PhD Defense: Xiaodan Chen
DESCRIPTION:Xiaodan Chen defends her PhD entitled: “Multi-Scale Computational Modeling of Speech: From Acoustic Foundations to Phonological Structures and Phonemic Applications” on Friday\, February 27\, 2026 at La Turbine Cergy-Pontoise. \nThesis committee\n\nNicolas Rougier\, DR\, INRIA Bordeaux\, Rapporteur\nBahia Guellaï\, PR\, Université Toulouse 2\, Rapporteure\nRong Tong\, MCF\, Singapore Institute of Technology\, Examinatrice\nDan Vodislav\, PR\, CY Cergy-Paris Université\, Examinateur\nMathias Quoy\, PR\, CY Cergy-Paris Université\, Directeur de thèse\nAlexandre Pitti\, PR\, ENSEA\, Co-directeur de thèse\nNancy F. Chen\, PI\, Institute for Infocomm Research\, A*Star\, Co-directrice de thèse\n\nThe presentation will be given in English. For those who wish to attend remotely\, a link will be provided. \nAbstract (EN)\nUnderstanding the computational and neural principles underlying speech acquisition\, representation\, and production is a fundamental challenge in cognitive science and artificial intelligence. \nThis thesis presents a unified investigation into this problem through three interconnected projects that model the hierarchy of speech processing\, from early infancy to late infancy\, and from early speech sound acquisition\, to structural (proto-syntactic) sequence representation\, and finally to neuromuscular speech production. \nThis journey begins with a model of infant sensorimotor development. We develop a compact and interpretable neural network to simulate early vocal learning. The model demonstrates how exposure to a native language shapes low-level auditory perception\, and reveals how predictive coding\, as a mechanism of continual learning during a “critical period”\, facilitates attunement to native-language acoustic patterns (L1)\, while preserving a foundational capacity to acquire non-native (L2) distinctions. This establishes how a developmental critical period can emerge from fundamental principles of online learning\, and posits the sensorimotor primitive as a core\, self-organized unit of linguistic computation. \nNext\, we investigate how the brain organizes sequences of these sensorimotor states into structured motor sequences. A rank-order coding network\, inspired by Broca’s circuit\, serves as a model for this process. It exhibits proto-syntactic generalization\, proving robust to superficial changes but highly sensitive to abstract rule violations\, mirroring the P3b neurophysiological response to structural novelty. This work forges a crucial developmental link between early sensorimotor speech learning and the emergence of phonological structure in speech. \nThe final project applies this cognitive perspective to a pressing engineering problem: the scarcity of data for Voiced Electromyography-to-Speech (V-ETS) systems. We introduce a Confidence-based Multi-Speaker Self-training (CoM2S) framework. Its key innovation is a phoneme-error-based filter\, which uses the categorical linguistic unit to select high-quality synthetic data\, thereby overcoming the data bottleneck and enhancing speech generation. \nTogether\, these projects form a multi-scale investigation of speech\, spanning from the acquisition of sensorimotor primitives\, to their organization into structured sequences\, and finally to the application of the phoneme as a supervisory signal for articulatory decoding. We therefore argue that a cognitively-inspired\, multi-scale approach bridging early sensorimotor learning\, proto-syntactic sequencing\, and applied decoding\, offers a principled framework for advancing both our understanding of speech processing and our capacity to engineer robust speech technologies. \nRésumé (FR)\nComment le cerveau apprend-il\, représente-t-il et produit-il la parole ? Déchiffrer ces principes computationnels constitue un enjeu central tant pour les sciences cognitives que pour l’intelligence artificielle. \nCette thèse présente une étude unifiée de cette problématique à travers trois projets interconnectés qui modélisent la hiérarchie du traitement de la parole\, partant de l’acquisition des sons de parole jusqu’à la représentation séquentielle structurelle\, pour aboutir finalement à la production neuromusculaire de la parole. \nLe premier projet modélise le développement sensorimoteur précoce. Nous développons un réseau neuronal compact et interprétable simulant l’apprentissage de la parole chez le nourrisson. Le modèle montre comment l’exposition à la langue maternelle façonne la perception auditive de base. Il révèle également le rôle du codage prédictif comme mécanisme d’apprentissage continu pendant la « période critique »\, permettant l’ajustement aux régularités acoustiques de la langue maternelle tout en préservant la capacité fondamentale à en acquérir d’autres. Ce projet établit les fondements d’une primitive sensorimotrice audio-articulatoire pour les traitements de niveau supérieur. \nLe deuxième projet examine l’organisation de ces primitives en séquences. Nous proposons un modèle de codage par ordre de rang\, inspiré du circuit de Broca\, qui démontre une capacité de généralisation proto-syntaxique : robuste aux variations de surface\, il reste sensible aux violations de règles abstraites\, à l’instar de la réponse neurophysiologique P3b observée face à des nouveautés structurelles. Ce travail met en lumière un lien développemental crucial entre l’apprentissage sensorimoteur et l’émergence de la structure phonologique. \nLe troisième projet applique ce cadre cognitif à un défi d’ingénierie : la pénurie de données pour les modèles de conversion de l’électromyographie vocale en parole (Voiced Electromyography-to-Speech\, V-ETS). Nous y introduisons une méthode d’auto-apprentissage multi-locuteurs basée sur la confiance phonémique (Confidence-based Multi-Speaker Self-training\, CoM2S). Son innovation principale est un filtre de sélection exploitant les unités distinctives de la langue (les phonèmes) pour identifier des données synthétiques de haute qualité\, améliorant ainsi significativement les performances des systèmes V-ETS. \nCollectivement\, ces projets forment une étude hiérarchique de la parole : de l’acquisition des primitives sensorimotrices\, à leur organisation en séquences structurées\, jusqu’à l’application du phonème comme signal de supervision pour le décodage articulatoire. Ce travail démontre que des représentations ancrées dans la cognition ouvrent la voie à des technologies de la parole plus robustes et économes en données\, établissant ainsi une boucle féconde entre les mécanismes cérébraux du langage et la conception de systèmes artificiels.
URL:https://www.etis-lab.fr/event/phd-defense-xiaodan-chen/
LOCATION:La Turbine Cergy-Pontoise\, 32\, boulevard du Port\, Cergy\, 95000\, France
CATEGORIES:PhD Defense
ATTACH;FMTTYPE=image/png:https://www.etis-lab.fr/wp-content/uploads/2024/12/xiandan_chen.png
ORGANIZER;CN="Xiaodan Chen":MAILTO:xiaodan.chen@etis-lab.fr
END:VEVENT
END:VCALENDAR