00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  Qu’est-ce que la synthèse vocale ?
jeudi 29 juin 2006


Entretien avec Christophe d’Alessandro, directeur de recherches au CNRS et responsable du groupe Perception Située au LIMSI-CNRS, laboratoire propre du CNRS, situé sur le campus de l’université Paris 11 à Orsay.

La synthèse de la parole est l’ensemble des dispositifs, matériels ou algorithmes, pour générer automatiquement de la parole artificielle. La synthèse de la parole consiste en la lecture par une voix synthétique d’un texte numérique.

Il existe plusieurs types de synthèse vocale, la version la plus complète étant la synthèse à partir d’un texte. Le but est de produire de la parole à partir d’un texte auparavant inconnu par le système.

Les applications sont très nombreuses, on peut citer notamment les aides pour personnes handicapées, les outils d’enseignement assistés par ordinateur, l’apprentissage des langages dans le domaine des répondeurs vocaux ou encore les jeux vidéo.

La parole artificielle ne doit pas être seulement intelligible. Il faut aussi qu’elle soit suffisamment naturelle pour être acceptable. La qualité de la voix varie en fonction des besoins du public. Les malvoyants ou les non-voyants par exemple privilégieront la rapidité de lecture tandis que l’industrie du jouet mettra l’accent sur l’expressivité de la voix.


-  Comment définiriez-vous la synthèse vocale ?

La synthèse vocale est la génération automatique, par des dispositifs matériels et/ou des algorithmes, de parole artificielle. Il y a plusieurs types de synthèse vocale ; la plus complète est la synthèse à partir de texte (text to speech) où le but est de produire de la parole à partir d’un texte a priori inconnu.



-  Combien de types de synthèse vocale existe-t-il ?

À l’autre bout de la chaîne, il y a les unités de réponse vocale. Il s’agit simplement de prononcer un petit nombre de courtes phrases pré-enregistrées pour des dispositifs de réponse vocale - par exemple : des appareils électroménagers, des poupées ou des voitures - qui peuvent donner un certain nombre de réponses du genre « votre porte n’est pas fermé » ou la poupée qui dit « j’ai faim, j’ai soif », etc. C’est de la synthèse vocale dans la mesure où une machine produit automatiquement de la voix artificielle, mais ce n’est pas du tout du même niveau de difficulté que la synthèse à partir du texte.

La synthèse à partir du texte prononce n’importe quel texte. L’application typique sera la lecture de journaux ou de livres pour les aveugles, la lecture d’inventaires, la lecture de courriels. Là, il s’agit de prononcer n’importe quoi, y compris des mots parfaitement inconnus comme des toponymes, des noms de lieux, des patronymes, des noms propres. Ainsi la synthèse vocale peut traiter de textes relativement courts et prévus, jusqu’à des textes parfaitement imprévus et éventuellement très longs.



-  Suffit-il que la voix soit intelligible pour être acceptable ?

Non, cela dépend des publics. Si on raisonne en terme d’application, pour, par exemple, les malvoyants ou les non-voyants, le plus important est que la voix soit intelligible, avec un débit assez rapide. Ce qui les intéresse est d’obtenir l’information, de lire l’article de journal le plus vite possible. Ils se moquent, en général, que la voix soit jolie ou non. La qualité expressive importe moins, ce qui compte le plus c’est d’acquérir l’information. Par contre, si on imagine des applications pour des jouets parlants, ce qui va compter est l’expressivité de la voix. Ce qui est dit n’a pas tellement d’importance par contre il faut que cela puisse plaire à des enfants. On aimerait toujours la plus belle voix, la plus intelligible mais la voix et sa qualité sont à moduler en fonction de l’application.



-  Et quels sont les principaux domaines d’applications ?

• Un premier classe d’applications, c’est les petites unités de réponse vocale : des plus ou moins petits appareils qui n’ont pas besoin de réponses et qui donc intègrent quelques phrases ou mots (jeux, électroménager, transports, etc.).

• La deuxième classe d’applications, c’est les services d’annonces vocales (services de météo, services d’annonces, etc.). Typiquement, on a un vocabulaire qui est grand mais plus ou moins bien maîtrisé et connu. Pour la météo, on aura besoin des conditions climatique ou, pour les avions, des différentes villes, pays, etc. A priori, ce sont des domaines avec un grand vocabulaire mais il est connu.

• La troisième classe d’applications est plus compliquée. Elle concerne des services de réponse pour des systèmes de vente. Telle société de vente par correspondance veut pouvoir donner par téléphone des informations sur son catalogue. Le vocabulaire est donc là a priori connu mais devient très grand parce qu’on prend en compte tous les articles du catalogue. Un autre exemple serait un système d’information financier sur les cours des actions d’un grand nombre de compagnies.

• La quatrième classe d’applications implique un vocabulaire parfaitement illimité comme par exemple la lecture de journaux ou de mails, l’assistance aux malvoyants et des situations dans lesquelles on ne peut on ne peut pas lire un texte (lecture de mails en voiture). C’est d’une façon générale tout ce qui pourrait être la prononciation de textes inconnus.

• Une autre classe d’applications concerne toutes les applications téléphoniques dans lesquelles on essaie de remplacer des opérateurs. Ainsi, plutôt que quelqu’un dise par téléphone le cours des actions de telle compagnie, on peut imaginer un système automatique qui donne ce type de réponse.



-  Y a-t-il des outils pour l’enseignement ? Peut-on imaginer la dictée vocale ?

Ce n’est pas mon domaine mais on peut aussi envisager des applications en enseignement assisté par ordinateur, par exemple dans le domaine de l’enseignement des langues. Pour savoir s’il existe des choses, il faudrait voir du côté des industriels.



-  Quels sont les acteurs de la synthèse de la parole ?

Jusqu’à une période récente, il y a eu pas mal d’activités au niveau de la recherche, avec en France les acteurs habituels : les universités, le CNRS et l’INRIA. Il y a aussi quelques compagnies qui font de la recherche et développement et de la commercialisation. En France, la plus grande entreprise était ELAN (maintenant disparue suite à une fusion). Traditionnellement, il y avait aussi les acteurs dans le domaine des télécoms, comme en France le CNET, le Centre national d’études des télécommunications. Maintenant il n’est plus national car le secteur des télécommunications a été privatisé ; l’activité de synthèse se retrouve dans les projets de recherche et développement chez France Télécom.



-  Quels publics seraient susceptibles d’utiliser la synthèse de la parole ?

Il y a le public qui en a un réel besoin, comme les non-voyants ou les malvoyants. La synthèse a alors pour but de rendre accessibles des documents écrits aux non-voyants. Depuis des années, c’est une des grosses applications de la synthèse de la parole. C’est un « petit public » dans la mesure où c’est relativement une petite population. Mais il y a là aussi une ou deux petites sociétés qui font des produits pour non-voyants.



-  L’outil est-il performant aujourd’hui ?

Oui, il rend indiscutablement service. La synthèse vocale permet de lire des journaux. Par exemple nous avons un collègue malvoyant, qui a fait une thèse sur la synthèse de parole sous ma direction, et qui a été recruté ensuite au CNRS. Il prend connaissance de ses courriers électroniques et de tous les textes grâce à la synthèse de parole. Elle est vraiment un apport extrêmement important pour un public qui en a réellement besoin. Ensuite, la synthèse de la parole est surtout utilisée dans le cadre de services, en particulier, de services téléphoniques de renseignements où il a beaucoup d’applications. On a tous plus ou moins fréquenté cela avec des renseignements de type météo ou les spectacles ; les annonces dans les gares, ce sont, dans la plupart des cas, des « annonces en boîtes ». C’est vous et moi, qui pouvons être amenés à utiliser cette synthèse vocale pour un service de renseignements dans lequel la voix est produite par un système automatique.



-  Quelles sont les techniques mises en œuvre ?

Ce sont des techniques essentiellement liées au son numérique, à l’informatique, au traitement numérique du son. Dans le développement des systèmes de synthèse à partir du texte - systèmes qui permettent de synthétiser n’importe quel texte - il y a des techniques de traitement automatique de la langue : techniques d’analyse syntaxique automatique, de phonétisation automatique (transcription du texte écrit en texte phonétique). Et derrière cela, il y a des techniques de type traitement du signal.



-  Quelles sont les différentes étapes pour faire parler une machine ?

Pour de la synthèse à partir du texte (text to speech), le cas le plus compliqué :

• On suppose d’abord que le texte est saisi sous forme informatique.

• La première étape est de repérer dans le texte quelles vont être les « anomalies » du texte (sigles, chiffres, unités). Ce n’est pas évident par exemple de savoir comment va se prononcer la lettre « g ». Cela peut être des « grammes » dans un contexte om on cherche à faire un poids, la lettre « g », une accélération, etc. Il faut donc d’abord repérer et traiter les « anomalies » du texte, les noms ou les chiffres. Imaginer « 2004 ». L’annotation est des chiffres qui vont se prononcer différemment selon les contextes. Et il suffirait qu’il y ait une virgule pour que cela soit « 20,04 ».

• La deuxième étape est de calculer la prononciation du texte. Il y a une différence importante entre la façon dont le texte est écrit sous forme de lettres et la façon dont il va être prononcé. Imaginez par exemple la lettre « s », qui dans certains cas se prononce [s] et dans d’autres cas se prononce [z] et dans d’autres cas ne se prononce pas. Il y a une série de règles sur la façon de prononcer un texte. C’est ce qu’on appelle la phonétisation, ou transcription du texte orthographique sous forme de texte phonétique.

• Quand on sait comment prononcer le texte, on s’intéresse ensuite à la structure du texte, à la musique qu’il faut mettre sur le texte : quand est-ce que cela commence, cela s’arrête ? Quelles sont les nuances ? Quels types de mélodie, de rythmes ? C’est ce qu’on appelle la prosodie du texte.

• La dernière étape est la fabrication de la parole de synthèse. Il existe plusieurs techniques, mais actuellement les techniques les plus utilisées, c’est d’aller chercher dans des grandes bases de données de paroles déjà prononcées (1h ou 2h). On y recherche des petits segments de parole qu’on va assembler, on les modifie, on les adapte et puis finalement on les assemble sous forme d’un signal acoustique.

Donc en résumé, une première étape d’analyse relève du traitement du langage naturel (partir d’un texte et en tirer des analyses). Dans la deuxième partie, on va se servir de ces analyses pour aller chercher des morceaux de parole, les mettre ensemble et créer une parole artificielle finalement.



-  Quels problèmes techniques reste-t-il à résoudre encore ?

Il y a des problèmes techniques à différents niveaux. Il y a ainsi des difficultés à résoudre pour la prononciation. Certaines choses sont difficiles à prononcer ou on ne sait pas les prononcer a priori, la prononciation de nouveaux noms propres notamment. Quand par exemple un nouveau président est élu dans un pays lointain, pays pour lesquels les règles de prononciation sont très différentes de celles du français, il se pose le problème de savoir comment le prononcer. Même pour des noms français, il y a des conventions qui ne sont pas du tout régulières sur la façon de prononcer les choses. Imaginez pour « Broglie » qui s’écrit différemment de la prononciation. Le plus important qui reste est de savoir comment prononcer les choses. En général, ce n’est pas du tout régulier donc il y a un travail important dans ce domaine.

Un autre problème important, c’est le problème de l’expression de la parole. Dans certains cas, cela n’est pas important - où on a surtout besoin de savoir ce qu’il s’est passé. Mais il y a des cas où donner le ton juste est important, donner une voix qui soit gaie quand l’événement est gai et triste quand il est triste. Par exemple, pour un système de réponse téléphonique, on imagine assez mal un système d’annonces qui aurait un ton complètement inadéquat.



-  Le ton n’est pas standard ? Donc la synthèse vocale peut traduire des émotions ?

Oui, ça fait partie des recherches actuelles. Actuellement, il n’existe pas de synthétiseurs vraiment expressifs, ils ont plutôt l’expression d’une parole lue. Il y a des services pour lesquels on peut imaginer qu’il est important que ce soit expressif. Pour un service d’accueil par exemple, la voix monocorde ne remplissant pas forcément la fonction d’accueil, il faudrait que ce soit un plus chaleureux.



-  Qu’est-ce qu’on peut attendre pour demain de la synthèse vocale ? Quels progrès ?

Les progrès iront d’un côté vers la possibilité de généraliser la bonne prononciation, d’être capable de bien tout prononcer.



-  Cela nécessite de dicter des règles ?

C’est compliqué, ce ne sont pas des règles. Si c’était régulier on saurait faire. Il s’agit alors de trouver des régularités. Pour les noms propres notamment, on imagine qu’il faut essayer de faire l’analogie entre le mot que l’on voit et des mots anciens que l’on a vu et su prononcer. Par exemple, un mot comme « Berger » : si vous savez que c’est le président de l’Allemagne, la prononciation sera différente que si c’était pour une personne française. Si c’est encore autre chose, la prononciation pourrait encore probablement être autre chose. La question de l’origine linguistique importe donc. Autre exemple, le nom Bush, on le prononce « bouche » parce qu’il est entendu dans le contexte anglophone, mais avec les règles de prononciation du français, ce serait plutôt « buche ». Il y a donc de nombreux problèmes sur la façon de prononcer les choses.

On peut attendre aussi une amélioration de l’expressivité de la synthèse. Il est aussi important de développer de nouvelles voix car actuellement les systèmes ont relativement peu de voix. Cela peut poser des problèmes dans les applications commerciales. Chaque société voudrait par exemple avoir sa voix particulière et non pas une voix identique à celle d’une société concurrente.



-  Les enjeux industriels sont considérables ?

Ils ne sont pas si considérables que ça ; on peut constater qu’il n’y a pas tant de sociétés que cela qui visent de la synthèse vocale.

Un autre enjeu est le multilinguisme : des systèmes qui parlent dans plusieurs langues. Actuellement il n’y a de bons systèmes que dans les langues économiquement dominantes, l’anglais bien sûr en premier lieu, le français, le japonais, l’allemand, l’espagnol, l’italien, le néerlandais, un peu le suédois ou le norvégien, etc., mais pas forcément dans les langues les plus répandues en terme de population. Face aux milliers de langues qui existent, avec une poignée de langues, on fait le tour pour la synthèse vocale.

Pour une langue dans un pays dont le potentiel économique est faible, peu de gens font de la recherche dessus et il n’y a donc pas ou peu de systèmes. C’est la même chose pour les langues avec une grande population. Il n’y a pas de synthèse en afghan ou en vietnamien. En Chine, il y a de la synthèse pour le mandarin mais sur la dizaine de langues qui y existent et qui peuvent représenter des dizaines de millions de personnes, il n’y a pas de synthèse. En Europe, il y a des synthèses des langues importantes mais pas forcément de toutes les langues. En Afrique, n’en parlons pas, il n’existe pas de synthèse du peul. Même en Europe, il y a de la synthèse pour les langues les plus importantes mais pas forcément pour toutes les langues. En définitive, il y a des synthèses pour les langues pour lesquelles des équipes de recherche ont fait des recherches dessus.

Dans l’enseignement, il y a aussi les langues mortes, on pourrait imaginer l’intérêt pédagogique de faire de la synthèse du latin ou du grec ancien. Mais bon, la recherche dépend évidemment de l’économie. Il y a de la recherche pour les langues pour lesquelles il y a une demande industrielle ou un ressort interne parce que le pays concerné a un organisme de recherche, ce qui est le cas d’une petite minorité de pays.



-  Pour en revenir à l’expressivité de la parole, une machine peut-elle chanter ?

Bien sûr une machine peut chanter. Il y a même des produits maintenant. Chanter est d’une certaine façon plus simple que parler parce que le texte à chanter est évidemment très connu. Pour une machine à chanter, on peut très bien imaginer de donner la phonétisation. Pour une chanson, le texte est petit, ce n’est pas comme lire Le Monde, pour lequel il faut vraiment une machine qui puisse phonétiser correctement. D’autre part, la prosodie est donnée par la mélodie. Il n’y a donc pas à faire tous les calculs difficiles pour calculer la prosodie. D’une certaine façon, c’est plus facile. Par contre, il est nécessaire que la qualité de la voix soit bonne, et là on va prêter attention aux aspects esthétiques de la voix. Cela pose d’autres problèmes.

Très naturellement, les chercheurs en synthèse de parole ont travaillé sur le chant. Moi-même, j’ai encadré une thèse sur la voix chantée, une personne qui est partie maintenant au Laboratoire d’acoustique musicale à Paris, et qui a été aussi recrutée au CNRS. Il y a des systèmes de voix chantées depuis environ une vingtaine d’années, certains ont servi dans des productions musicales (concerts, disques, cinéma). Plus récemment, des grosses compagnies de production audio, de l’industrie audiovisuelle, ont commencé à produire des synthétiseurs de chant de très bonne qualité. De la même façon que le marché du piano numérique - - sans cordes et sans marteau - supplante presque celui du piano « vrai », la voix synthétique peut remplacer les voix « secondaires » (les chœurs) dans de la musique de variétés. A la suite des violons et des trompettes de synthèse, c’est maintenant au tour de la voix de synthèse de remplir les parties d’accompagnement. On peut citer en particulier Yamaha, qui a toute une suite de logiciels pour faire de la synthèse de voix chantées, et qui sont d’une qualité remarquable, pas forcément pour le soliste surtout pour les chœurs d’accompagnement. Des produits de voix chantées de la même façon peuvent être utilisés pour faire des maquettes et d’une façon générale pour la production de musiques « en boîte » (pour l’audiovisuel, les séries télé). Il existe aussi le synthétiseur du type clavier où il y a très souvent une option « voix » qui est capable de prononcer des syllabes.

Donc la qualité s’approche ou est supérieure à ce qu’on pourrait faire avec un vrai piano ou avec une vraie voix. Pour la musique de type variété dans laquelle la voix sert d’accompagnement (les chœurs derrière un chanteur), cela me semble d’une qualité suffisante pour la production courante, à l’instar des instruments synthétiques.



-  Cela va-t-il changer les rapports avec la machine ?

A mon avis, pour l’instant, on n’en est pas du tout là. Concrètement, pour la voix chantée, cela change mais fondamentalement c’est le même rapport que l’on a avec un synthétiseur, avec un autre instrument. Ce ne sont plus des choristes qui seront employés, mais une machine et cela a un impact certain sur la profession. En même temps, on peut dire que les compositeurs de ce genre de musique ont un moyen en plus.

Pour la voix parlée, c’est la même chose. Des services vocaux faits par des gens peuvent être faits par des machines : cela change les fois, à la fois en bien et en mal. En bien, si on considère que cela permet de libérer des tâches qui n’étaient pas très amusantes à faire. En mal, si cela, au contraire, prend des emplois. Mais cela ne change pas fondamentalement le rapport que l’on a avec une voix synthétique : on se rend bien compte que c’est une machine. Si on utilise un automate qui a une réponse vocale, on sait que c’est une machine.

Est-ce que demain on peut s’imaginer parler à son ordinateur pour le faire fonctionner ? C’est un autre problème : parler à une machine, c’est un problème de la reconnaissance vocale ou de la commande vocale. Le fait qu’il réponde est du ressort de la synthèse vocale. Est-ce que l’on a envie que la machine nous réponde ? Cela n’est pas très évident, sauf pour les non ou les mal voyants. Pour ceux-ci, les systèmes de synthèse vocale ont vraiment apporté quelque chose : avant, il fallait que quelqu’un lise, maintenant, le pouvoir de faire lire par une machine donne une autonomie supplémentaire. C’est pareil pour la lecture de mails par téléphone : on peut avoir des informations sans les regarder.

Comme dans toute évolution technique, cela change le rapport aux machines mais pas au point qu’on ait l’illusion qu’une machine soit autre chose qu’une machine.

Propos recueillis par Marie-Noëlle Rohart
Pour le laboratoire CRIS - Université Paris X
Printemps 2004


En savoir plus :

-  Bibliographie

• Christophe d’Alessandro, Evelyne Tzoukermann (sous la direction de), Synthèse de la parole à partir du texte, numéro de Traitement Automatique des Langues (TAL), Hermès, Vol. 42, No 1, 2001. Dont :
• Christophe d’Alessandro, 33 ans de synthèse de la parole à partir du texte : une promenade sonore (1968-2001).

-  Liens internet

Page de Christophe d’Alessandro
Groupe Perception Située (LIMSI-CNRS)