We use cookies to provide some features and experiences in QOSHE

More information  .  Close
Aa Aa Aa
- A +

Comment fabrique-t-on une voix de synthèse ?

2 3 2
22.01.2019

Avant son dossier spécial sur la parole, du 28 janvier au 10 février, La Croix s’interroge sur les paroles « non-humaines ». Nicolas Obin, enseignant-chercheur à l’Ircam (Institut de recherche et coordination acoustique/musique) et Sorbonne Université, revient sur la création des voix de synthèse et leurs utilités.

Nicolas Obin explique que « les voix peuvent être manipulatrices et leur prêter une émotion n’est pas un choix neutre. » / peterschreiber.media - stock.adobe.com

La Croix : Les voix de synthèse sont-elles reconstruites à partir de morceaux mis bout à bout ?

Nicolas Obin : Oui et non. Depuis les années 1990, il y a toujours une ou plusieurs voix humaines à l’origine des voix de synthèse. On parle de « synthèse par corpus ». Une personne enregistre en studio des phrases optimisées pour contenir le plus de phonèmes possible. Il s’agit toujours de phrases et non de mots isolés pour avoir le contexte, les silences et les liaisons. On peut aussi se baser sur des enregistrements déjà existants. Pour ma thèse, j’ai simplement acheté un livre audio d’André Dussollier !

Ensuite, pour générer une parole de synthèse à partir de ces enregistrements, on a longtemps fonctionné par « morceaux ». On cherchait dans la base de données le bon phonème avec la bonne intonation pour reconstituer le mot puis la phrase voulue. Mais l’intelligence artificielle a changé les pratiques. Une voix de synthèse est désormais créée par un réseau de neurones artificiels. Ce dernier étudie les enregistrements et établit un modèle statistique qui lui permet de créer des phrases. En un sens, elles sont donc beaucoup plus artificielles.

Quand la voix se dévoile

Comment gère-t-on les silences, les accentuations, le timbre, la spécificité des voix ?

N. O. :........

© La Croix