Une intelligence artificielle qui réussirait à recréer le visage des personnes juste en entendant le son de leurs voix ? Vous pensez qu’il s’agit peut-être d’un mauvais film de science fiction ? Et bien accrochez-vous car c’est aujourd’hui bel et bien réel !
Aujourd’hui les photographies sont réalisées à l’aide de la lumière, mais si des portraits de personnes pouvaient être réalisés avec le son de leur voix ? Les chercheurs en intelligence artificielle ont travaillé sur la reconstruction du visage d’une personne en utilisant uniquement un court enregistrement audio de cette personne en train de parler, et les résultats sont étrangement impressionnants et bluffant voir presque terrifiant…
Les scientifiques de l’intelligence artificielle du laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL) ont publié pour la première fois un algorithme d’IA appelé Speech2Face dans un article en 2019.

« Combien pouvons-nous déduire de l’apparence d’une personne à partir de sa façon de parler ? » le résumé lit. « Nous étudions la tâche de reconstruire une image faciale d’une personne à partir d’un court enregistrement audio de cette personne qui parle. »
Une IA aux résultats déjà impressionnants
Les chercheurs ont d’abord conçu et formé un réseau neuronal profond en utilisant des millions de vidéos de YouTube et d’Internet montrant des gens en train de parler. Au cours de cette formation, l’IA a appris des corrélations entre le son des voix et l’apparence de l’orateur. Ces corrélations lui ont permis de faire les meilleures suppositions quant à l’âge, au sexe et à l’origine ethnique du locuteur.
Il n’y a eu aucune implication humaine dans le processus de formation, car les chercheurs n’ont pas eu besoin d’étiqueter manuellement des sous-ensembles de données – l’IA a simplement reçu une énorme quantité de vidéos et a été chargée de déterminer les corrélations entre les caractéristiques vocales et les caractéristiques faciales.
Une fois formée, l’IA était remarquablement douée pour créer des portraits basés uniquement sur des enregistrements vocaux qui ressemblaient à ce à quoi ressemblait réellement l’orateur.

Pour analyser plus en détail la précision des reconstructions faciales, les chercheurs ont construit un « décodeur de visage » qui crée une reconstruction standardisée du visage d’une personne à partir d’une image fixe tout en ignorant les « variations non pertinentes » telles que la pose et l’éclairage. Cela a permis aux scientifiques de comparer plus facilement les reconstructions vocales avec les caractéristiques réelles du locuteur.
Encore une fois, les résultats de l’IA étaient étonnamment proches des vrais visages dans un grand pourcentage de cas.
Ci-dessous sur cette image vous pouvez voir de gauche à droite, la photo originale puis au milieu une reconstruction faite à partir des photos originales puis à droite le résultat de la reconstruction réalisée à partir des audios de personnes :



Faiblesses et problèmes éthiques
Dans certains cas, l’IA avait du mal à déterminer à quoi pouvait ressembler le locuteur. Des facteurs tels que l’accent, la langue parlée et la hauteur de la voix étaient des facteurs qui provoquaient des «incompatibilités discours-visage» dans lesquelles le sexe, l’âge ou l’origine ethnique étaient incorrects.

Les personnes à voix haute (y compris les garçons plus jeunes) étaient souvent identifiées comme des femmes tandis que les personnes à voix basse étaient étiquetées comme des hommes. Un homme asiatique parlant anglais avait une apparence moins asiatique que lorsqu’il parlait chinois.

« À certains égards, le système est donc un peu comme votre oncle raciste », écrit le photographe Thomas Smith. « Il semble qu’il peut toujours dire la race ou l’origine ethnique d’une personne en fonction de son son, mais c’est souvent faux. »
Les chercheurs notent qu’il existe des considérations éthiques entourant ce projet.
« Notre modèle est conçu pour révéler les corrélations statistiques qui existent entre les traits du visage et les voix des locuteurs dans les données de formation », écrivent-ils sur la page du projet. « Les données de formation que nous utilisons sont une collection de vidéos éducatives de YouTube et ne représentent pas de manière égale l’ensemble de la population mondiale. Par conséquent, le modèle, comme c’est le cas pour tout modèle d’apprentissage automatique, est affecté par cette distribution inégale des données.
« […] [N]ous recommandons que toute enquête plus approfondie ou utilisation pratique de cette technologie soit soigneusement testée pour garantir que les données de formation sont représentatives de la population d’utilisateurs prévue. Si ce n’est pas le cas, des données plus représentatives devraient être largement collectées.
Applications du monde réel
Une application possible de cette IA dans le monde réel pourrait être de créer une représentation de dessin animé d’une personne lors d’un appel téléphonique ou d’une visioconférence lorsque l’identité de la personne est inconnue et qu’elle ne souhaite pas partager son visage réel.
« Nos visages reconstruits peuvent également être utilisés directement, pour attribuer des visages aux voix générées par la machine utilisées dans les appareils domestiques et les assistants virtuels », écrivent les chercheurs.
Les forces de l’ordre pourraient vraisemblablement également utiliser l’IA pour créer un portrait montrant à quoi ressemble probablement un suspect si la seule preuve est un enregistrement vocal. Cependant, les applications gouvernementales feraient sans aucun doute l’objet de nombreuses controverses et débats concernant la confidentialité et l’éthique.
Bien que générer des portraits réalistes et précis de personnes à partir de leur seule voix soit un concept fascinant et appartenait auparavant à la science-fiction, les chercheurs ne visent pas ce type de technologie comme objectif ultime de cet algorithme d’IA.
« Notez que notre objectif n’est pas de reconstruire une image précise de la personne, mais plutôt de récupérer des caractéristiques physiques caractéristiques qui sont corrélées avec le discours d’entrée », indique le document. « Nous avons démontré que notre méthode peut prédire des visages plausibles avec des attributs faciaux compatibles avec ceux d’images réelles.
« Nous pensons que la génération de visages, par opposition à la prédiction d’attributs spécifiques, peut fournir une vue plus complète des corrélations de visages vocaux et peut ouvrir de nouvelles opportunités de recherche et applications. »