À l’université Columbia, le Creative Machines Lab présente un humanoïde capable de synchroniser ses lèvres avec une précision rarement vue, en se contentant d’apprendre par la vision. Sans règles explicites par phonème, le système aligne mouvements faciaux et audio pour la parole et le chant, avec un réalisme qui s’attaque frontalement au « malaise » des expressions robotiques.
Le visage repose sur une peau synthétique souple tendue sur 26 micromoteurs. Les chercheurs ont d’abord mené une phase d’« auto-exploration » devant un miroir : des milliers d’expressions aléatoires ont permis d’établir la cartographie entre commandes moteurs et configurations faciales. Sur cette base, l’algorithme a ingéré des heures de vidéos YouTube de personnes parlant et chantant pour relier statistiquement timbre, dynamique de la voix et cinématique des lèvres.
Le modèle de « conversion visuo-motrice » produit ensuite, à partir de l’audio, des signaux moteurs synchronisés sans passer par un pipeline de phonèmes scriptés. Résultat : une synchro labiale crédible sur plusieurs langues, assez robuste pour interpréter des titres d’un album interne baptisé « Hello World ». Les limites actuelles se voient surtout sur les plosives comme « B » et les consonnes arrondies type « W ».
Pour Hod Lipson, directeur du laboratoire, la dimension faciale a été sous-investie par rapport à la locomotion, à la préhension ou à la mobilité. Or, dans l’éducation, le soin et l’assistance, la lisibilité émotionnelle du visage pèse autant que l’adresse des membres. Le chercheur estime que des interactions répétées amélioreront encore la fidélité des micro-mouvements et l’acceptabilité sociale, point clé à l’heure où la production d’humanoïdes s’accélère.
Le responsable du projet, Yuhang Hu, voit un couplage naturel avec des IA conversationnelles du type ChatGPT ou Gemini, capables d’injecter du contexte et de la prosodie dans les nuances faciales. À mesure que les modèles apprendront des dialogues longs, ces expressions deviendront plus situées, renforçant l’illusion d’une compréhension réciproque. L’équipe reconnaît cependant des enjeux psychologiques et éthiques sensibles, appelant à une progression graduelle.
Ce que cela change pour la robotique humanoïde
En remplaçant les règles phonétiques par l’apprentissage direct audio→moteurs, la filière esquive des pipelines lourds et spécifiques aux langues. À la clé, une portabilité accrue, un réalisme supérieur et un calibrage plus simple sur de nouveaux visages mécaniques. Si la communauté parvient à généraliser ce type de cartographie visuo-motrice et à fiabiliser les cas difficiles (plosives, arrondissements, coarticulation rapide), la face deviendra un module aussi industrialisable que les mains ou les jambes, avec un impact direct sur l’adoption grand public.
Source : ITHome