_____ > L'informatique cherche ses voix | Petite histoire de la synthèse vocale
Aujourd'hui, il est possible de changer notre image à loisir : style vestimentaire, couleur des cheveux, et même des yeux... Mais, face à cette suprématie contemporaine de l'apparence, la voix reste un second visage qu'il est plus difficile de modeler à notre guise. A l'instar de l'image, elle occupe une place privilégiée dans le champ des nouvelles technologies et, plus de cinquante ans après les premières synthèses vocales informatiques, concentre encore bien des défis numériques. Demain, aurons-nous la possibilité de parler avec une voix de synthèse que nous aurons nous-mêmes créée à partir d'intonations affectionnées, de timbres de célébrités admirées ? Pourrons-nous nous approprier la voix d'un autre, comme dans le film Mission impossible ? Jusqu'au 28 septembre 2014, la Cité des sciences consacre une courte exposition à la voix, à l'aune de la science, de la sociologie et de l'art. Un parcours qui, en étroit partenariat avec l'Ircam (Institut de recherche et coordination acoustique/musique), permet aux visiteurs de tester les dernières technologies relatives à la transformation et à la synthèse vocale. Quelles sont-elles ? Que peut-on encore faire avec la voix, qui n'ait déjà été fait ? Pour quels enjeux ? Parcours dans l'exposition, suivi d'une rencontre avec Nicolas Obin, chercheur à l'Ircam.
Voix distordues, recréées... Expériences à la Cité des sciences
Ça pépie de tous les côtés. Chaque dispositif est pris d'assaut par un, deux, trois enfants, qui se plient avec un plaisir visible aux exercices dictés par les panneaux explicatifs.
Ici, on se promène en chaussettes sur un clavier géant afin de déterminer si l'on est basse, ténor, mezzo soprano ou soprano, là, on se campe devant le micro pour chanter, accompagné de choeurs, ici encore, en attribuant des qualificatifs à sa voix, on compare la manière dont on la perçoit et dont elle est perçue par autrui...
Dans ce parcours ludique, quelques installations utilisant les technologies numériques permettent au visiteur de modifier des voix.

Romane, une douzaine d'années, petite blonde distinguée et réfléchie , a testé un dispositif permettant de féminiser, masculiniser, rajeunir ou vieillir des voix connues, telles celle de Simone Hérault (voix de la SNCF), ou encore celle de Laurent Delahousse :

Inna et Nolan, la soeur et le frère , testent un dispositif similaire, à la différence que les visiteurs sont ici invités à modifier leur propre voix, après s'être enregistré lisant un petit poème pour enfant bien connu, signé Robert Desnos :
Le dernier dispositif auquel nous nous intéressons invite les visiteurs à enregistrer quatre phrases inscrites sur l'écran, aussi simples que : "Attends, je vais porter ta valise. " ou "Je porte des mitaines rouges. " A partir de cet enregistrement, la machine est capable de synthéthiser une phrase qui n'a pas été prononcée par le visiteur, avec la voix de celui-ci.
Christophe et Céline, qui découvraient l'exposition en amoureux, l'ont essayé :
A côté, un panneau interroge le visiteur :
Peut-on manipuler les voix ? Chanter comme la Callas, choisir la voix d'un avatar de jeu vidéo, faire parler une personne disparue, prêter sa voix aux GPS ou smartphones, tout cela devient possible. Imaginons maintenant que l'on attribue à un homme politique un discours qu'il n'a jamais tenu, que l'on condamne un suspect en se basant sur une voix, que l'imposture vocale se banalise... Les logiciels capables de convertir l'identité d'une voix n'en sont qu'à leurs débuts, mais le problème éthique se pose déjà.
Certains travaillent déjà sur toutes les questions que peuvent engendrer ces expériences. Notamment à l'Ircam, où oeuvrent des traficants de voix...
Détournement de voix à l'Ircam Après cette première approche donc, rendez-vous à l'Ircam, où les recherches sont servies par des technologies de pointe permettant des résultats d'une qualité supérieure à l'aperçu donné par l'exposition.
De l'acoustique avant toute chose
Maître de conférences à l’université Pierre et Marie Curieet chercheur dans l’équipe "Analyse et synthèse des sons" à l’Ircam, Nicolas Obin travaille sur l'analyse, la transformation et la synthèse des signaux sonores.
Il explique que dès sa création en 1977, l'institut s'est intéressé à la question de la transformation et de la synthèse des voix. Mais, avant de passer la voix au filtre des algorytmes, il s'agit d'abord de bien la connaître d'un point de vue physiologique :
Forts de ces connaissances, les chercheurs de l'Ircam tentent de transformer la voix : hauteur et timbre, en adoptant "un peu la même stratégie qu’un imitateur" , mais aussi qualité vocale, même si Nicolas Obin reconnaît que c'est plus difficile. "Ce sont des caractéristiques contenues dans la source de la voix qui permettent de parler de manière soufflée, craquée, rauque, cassée… etc. Ce sont des choses plus compliquées à représenter et transformer correctement, mais on travaille dessus. "
►►► Découvrez ici, en vidéos, une histoire de la synthèse vocale, résumée par Nicolas Obin
Et le chercheur de prendre l'exemple d'une "synthèse croisée " réalisée à l'aide d'un rugissement de lion couplé à la voix de Sean Connery :
"Il s'agit simplement d'un traitement du signal : on combine les deux sons ensemble. "
La transformation
"Je parle dans un micro et ma voix est immédiatement transformée. La modification est faite directement sur le son. ", explique Nicolas Obin. Pour ce faire, l'Ircam a développé un logiciel fonctionnant sur le schéma de production de la parole (présenté plus haut) : "On a développé d’un côté des algorythmes d’analyse des caractéristiques de la voix, pour estimer la fréquence de variation des cordes vocales et la résonance du conduit vocal, et de l'autre des algorythmes de transformation capables de modifier ces caractéristiques. "
Initialement, ces recherches étaient motivées par certains compositeurs, dans le cadre de créations artistiques spécifiques.
C'est à peu près depuis cinq ans seulement, que ces algorythmes sont arrivés à maturité : "Aujourd’hui, on a énormément de contacts avec les mondes du jeu vidéo et du cinéma, qui souhaitent profiter de ces technologies. "
T.R.A.X. Transformer, un plugin audio professionnel (module pouvant s'intégrer à d’autres logiciels d’édition audio) dont la technologie provient de l’Ircam, existe depuis cinq ans. "On parle avec sa voix normale durant quelques secondes, puis la machine analyse la voix et ses caractéristiques : hauteurs minimale, maximale et moyenne. Ensuite, on peut s’amuser en modifiant la longueur des cordes vocales et leur vibration, la taille du conduit vocal… "
La conversion d’identité de la voix : s'approprier la voix de quelqu'un d'autre
La conversion d'identité va au-delà des transformations génériques : le but est de parler avec la voix d’un autre individu, une technologie qui appâte les sphères du jeu vidéo et du cinéma. Il s'agit de transformer le timbre et la prosodie : "Pour ce type de technologie, on doit constituer une petite base de données de la voix de la personne qu’on cherche à imiter. " explique Nicolas Obin, avant d'en dire plus long sur le fonctionnement :
C'est là, bien sûr, que peuvent se poser toutes les questions d'ordre éthique soulevées par les visiteurs de la Cité des Sciences : "Nous on ne songeait pas du tout à ce type de questions quand on développait ces technologies, mais les usages ont évolué… , confie le chercheur.
Tant qu’on reste dans le cadre historique, il n'y a pas de problème. Si on bouge sur un cadre artistique, avec un réalisateur qui voudrait faire parler le maréchal Pétain pour lui faire dire des choses qu'il n'a pas dites, ça le regarde, c’est son esthétique, c’est lui qui prend la responsabilité artistique. Si c’est pour falsifier la voix d’une personne encore vivante pour lui faire tenir des propos qu'elle n'a jamais tenus, ça devient problématique.
Nicolas Obin
Alors que le cadre juridique concernant ces questions est encore assez flou, l'Ircam n'est pas capable, à partir du signal transformé, de déterminer si une voix a été modifiée. Mais Nicolas Obin mentionne l'existence de laboratoires travaillant spécifiquement sur la reconnaissance de locuteurs : "C’est un domaine qui s’appelle la biométrie vocale et dont la tâche est d’être capable d’authentifier à 100% la voix d’une personne. " Mais pour l'instant, pas d'utilisation par la justice car les résultats, aussi précis soient-ils, ne sont pas infaillibles : "Les personnes mêmes qui sont à la pointe de ces technologies se battent dans les tribunaux pour que l’authentification vocale ne soit pas utilisée comme une preuve. "
Recomposer une voix, comme un puzzle
Avec les progrès dans le stockage des données et le traitement de signaux, s'est produit l'avènement de la synthèse par sélection d'unités, dont le principe, pour Nicolas Obin, est "extrêmement simple : il faut simplement un réservoir, une base de données dans laquelle piocher. " Au départ de cette aventure, l'Ircam s'est procuré un livre audio lu par André Dussolier : A la recherche du temps perdu , de Proust.
Cet enregistrement de plusieurs heures a été découpé en petits morceaux : mots, syllabes, phonèmes… qui ont été stockés dans une base de données, constituant ainsi un réservoir de pièces de puzzle élémentaires, pour que puissent être reproduits les phonèmes, comme les intonations particulières :
S'est ensuivie une vraie rencontre avec André Dussolier, fasciné que l'Ircam ait si bien su reconstituer sa voix. Une matinée au cours de laquelle l'expérience a été renouvelée avec d'autres textes, optimisés, afin que la base de données soit équilibrée phonétiquement.
Il est donc possible de recréer la voix d’une personne de manière très naturelle et très expressive. "Mais à l’Ircam, les compositeurs ne se satisfont pas que de ça." , souligne Nicolas Obin dans un sourire amusé. "Ils détournent les technologies pour utiliser leur potentiel expressif. Il y a un enjeu créatif. " :
Développements et perspectives
On est aujourd’hui capables de créer une voix de synthèse à partir d'un enregistrement très court, grâce à des techniques de modèles statistiques, explique Nicolas Obin, évoquant les centres de recherche des universités de Cambridge et d'Edimbourg qui sont à la pointe dans ce domaine (il existe aussi des laboratoires aux Etats-Unis et à Tokyo). Dans ce cas précis, les chercheurs ne travaillent pas à partir d'un corpus de mots prononcés par une personne, mais sur des modèles statistiques : "On crée un modèle de voix moyen, comme on peut trouver sur internet les visages moyens de l’humanité. A partir de ces modèles moyens de voix humaine, trente secondes de la voix d’une personne suffisent pour que le modèle soit adapté, pour qu’une voix de synthèse soit générée avec les caractéristiques de cette même voix. "» Une technologie qui permet de faire de la synthèse de parole personnalisée : "Par exemple, je suis dans un jeu vidéo, et le personnage aura ma voix à moi. "
Les travaux sur la voix ont aussi emmené les chercheurs de ces universités à développer une "synthèse inter-langage ", qui permet à une personne de voir automatiquement traduits ses propos, dans une autre langue, avec sa propre voix.
Evidemment, toutes ces innovations ne sont pas sans faire grincer bien des dents du côté des traducteurs, des acteurs, des comédiens... Nicolas Obin témoigne de la réaction d'André Dussolier qui, fasciné par son expérience avec l'Ircam, n'en était pas moins légèrement troublé :
Quel est le prochain grand défi concernant la voix ? "La personnaliser de manière automatique. ", répond le jeune chercheur. L’idée serait d’être capable de créer une voix à soi, qui ne soit pas forcément la sienne, et de parler automatiquement avec celle-ci. "L'idéal serait d’avoir carrément un petit microphone qui enlève la source directe d’émission de la voix et qui la remplace par la voix transformée, celle que l’on souhaiterait avoir. "
Il faudrait pour cela pouvoir couper le son direct, tout en étant capable d’analyser ce qui est en train de se passer d'un point de vue physiologique, et ce n'est pas une mince affaire.
En attendant, Nicolas Obin tient à mentionner que le CSTR (Centre for Speech Technology Research) d'Edimbourg mène des travaux "très nobles " autour de la synthèse de la voix. Le but est de pouvoir la redonner aux personnes qui en ont perdu l’usage, à l'instar du grand physicien Stephen Hawking :
►►► Suite du reportage : découvrez en vidéos, une petite histoire de la synthèse vocale