00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  EVALDA - EVASY
jeudi 30 novembre 2006


Evaluation des Synthétiseurs de parole en français

Thème de l’action : Evaluation des technologies linguistiques (projet EVALDA)

Contact
 

ELDA

Khalid Choukri, choukri@elda.org
Nicolas Moreau, moreau@elda.org

LIMSI

Christophe d’Alessandro, cda@limsi.fr

Pages du projet sur le site elda.org

 

Résumé

Les techniques de synthèse de la parole posent des problèmes d’évaluation nouveaux, puisque l’architecture des systèmes de synthèse est différente, et puisque l’évaluation du « naturel » des voix devient importante, en plus et indépendamment de l’intelligibilité, de l’agrément (description de la voix comme agréable ou non (à écouter)). Ainsi, de nouveaux types de test d’agrément, plus fins, doivent être mis en oeuvre puisque la distance entre parole naturelle et parole synthétique diminue. Dans la génération précédente de systèmes, la voix du locuteur artificiel sonnait véritablement comme un système artificiel, le timbre était perdu. Aujourd’hui, le timbre est préservé, mais il y a des problèmes de cohérence de la voix. Cette nouvelle situation appelle de nouveaux types de tests.

Ce projet propose une campagne d’évaluation des synthétiseurs à partir du texte en français. Il se situe en partie dans la continuité de la seule campagne de ce type qui ait été conduite, dans le cadre de l’Actions de Recherche Concertée ARC B3 de l’AUF – Agence Universitaire de la Francophonie (ex-AUPELF-UREF) de 1996 à 1999. La campagne se décompose en trois actions : évaluation de la phonétisation ; évaluation de la prosodie ; évaluation globale de la qualité de synthèse.

 

Résultats

LE PACKAGE D’EVALUATION EVASY EST DESORMAIS DISPONIBLE AUPRES D’ELRA :

  • Package d’évaluation EvaSy (référence ELRA-E0023)
  • Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation EvaSy. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système et ainsi de pouvoir comparer ses résultats à ceux obtenus pendant la campagne.

Evaluation de la qualité globale

6 systèmes on été évalués : 3 systèmes à base de diphones (identifiés D1, D2 et D3 comme précédemment), et 3 systèmes basés sur la méthode de sélection (S1, S2 et S3). Il sont issus des laboratoires suivants : Acapela Group, Multitel, CRISCO, ELAN, ICP, LIMSI-CNRS. Comme précédemment, la voix naturelle a été utilisée comme « système » de référence.

Tests SUS : Quel que soit le niveau de détail retenu pour calculer le taux de reconnaissance (phrase, mot ou phonème), les meilleurs taux sont obtenus par (en ordre décroissant) : la voix naturelle, suivi des systèmes D2, S3, D3, S1, S2 et D1. Les systèmes à base de diphones sont en moyenne plus intelligible (45% de taux de reconnaissance sur les phrases contre 41% en moyenne) que les systèmes basés sur la méthode de sélection.

Tests ACR/MOS : Dans toutes les catégories évaluées, la voix naturelle obtient les meilleurs scores, suivie des systèmes S3 et D3. Le système S3 est de loin considéré par les évaluateurs comme le meilleur système de synthèse. Cependant D3 est le seul système obtenant un score compris entre 2 et 4 dans toutes les catégories. Plus généralement, si l’on considère l’ensemble des systèmes évalués, on note que les systèmes basés sur la méthode de sélection ne sont pas nécessairement jugés meilleurs que les systèmes à base de diphones dans toutes les catégories.

Evaluation de la conversion Graphème-Phonème

Quatre systèmes ont participé à l’évaluation (CRISCO, ICP, LIA et LIMSI). Les 4 systèmes obtiennent des taux d’erreur entre 12,9% et 19,3% (taux de noms propres incorrectement phonétisés). Ces résultats sont comparables à ceux obtenus sur 1500 noms propres lors de la campagne AUPELF. Le seul des 4 systèmes qui n’est pas à base de règles obtient le plus mauvais score (19,3%).

Evaluation de la prosodie

5 systèmes on été évalués : 3 systèmes à base de diphones (dont les soumissions ont été anonymisées à l’aide des identifiants D1, D2 et D3), et 2 systèmes utilisant l’approche non-uniform unit selection (S1 et S2). Il s’agit des systèmes des laboratoires suivants : Acapela Group, CRISCO, ELAN, ICP, LIMSI-CNRS. Les résultats obtenus placent logiquement la voix naturelle en première place sur l’ensemble des tests, avec un taux de préférence moyen de 80%. Le système S1 basé sur la méthode de sélection arrive en deuxième place (taux de préférence moyen de 72%) suivi du système D1 à base de diphones (taux de préférence moyen de 58%). Des taux de préférence inférieurs à 50% furent obtenus avec les systèmes S2, D2 et D3 (respectivement 40%, 31% et 18%).

Ressources

Package d’évaluation

Un package d’évaluation EvaSy a été constitué. Il rassemble les données (les ressources linguistiques textuelles et orales, les références), les outils (scripts) et les techniques d’évaluation (métriques, protocoles, etc.) mis en œuvre au cours du projet. Son contenu est structuré autour des quatre tâches d’évaluation de la campagne EvaSy :

  • Evaluation de la conversion Graphème-Phonème,
  • Evaluation de la prosodie,
  • Evaluation globale de la qualité des systèmes de synthèse par tests ACR,
  • Evaluation globale de la qualité des systèmes de synthèse par tests SUS.

Evaluation de la prosodie

Les données de test pour l’évaluation de la prosodie sont les suivantes :

  • Données textuelles : 7 phrases phonétiquement équilibrées extraites du corpus BREF et de durée variant de 4 à 11 secondes.
  • Données audio : lecture des 7 phrases par un locuteur.

Evaluation globale - Tests ACR (Absolute Category Rating)

Les données de test pour cette évaluation sont les suivantes :

  • Données textuelles : 40 passages de 5 phrases chacun et d’une durée de 20 secondes extraits du corpus EUROM1. Pour l’évaluation, 18 passages sont sélectionnés parmi les 40.
  • Données audio : lecture des 40 passages par un locuteur EUROM1.

Evaluation globale - Tests SUS (Semantically Unpredictable Sentences)

Les données de test pour cette évaluation sont les suivantes :

  • Données textuelles : 24 listes de 12 phrases SUS. Les phonèmes sont également répartis par liste. Pour l’évaluation, les 21 premières listes des 24 listes du corpus ont été utilisées, soient 3 listes (36 phrases SUS) différentes pour chacun des 7 systèmes participants. Pour chaque système, 1 phrase a été extraite de la liste #22 afin de familiariser les sujets à la tâche d’évaluation lors des tests subjectifs.
  • Données audio : lecture des 24 listes par un locuteur professionnel.

Publications

  • P. BOULA DE MAREUIL, C. D’ALESSANDRO, A. RAAKE, G. BAILLY, M.-N. GARCIA, M. MOREL, “A Joint intelligibility evaluation of French text-to-speech systems : the EvaSy SUS/ACR campaign”. In : Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.2034-2037.

  • M.-N. GARCIA, C. D’ALESSANDRO, G. BAILLY, P. BOULA DE MAREUIL, M. MOREL, “A joint prosody evaluation of French text-to-speech systems : the EvaSy Prosody campaign”. In : Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p. 307-310.

  • P. BOULA DE MAREUIL, C. D’ALESSANDRO, G. BAILLY, F. BÉCHET, M.-N. GARCIA, M. MOREL, R. PRUDON, J. VÉRONIS, “Evaluating the pronunciation of proper names by four French grapheme-to-phoneme converters”. In : Proceedings of Eurospeech’05 (Interspeech), Lisboa, Portugal, September 2005, p. 1521–1524.

  • P. BOULA DE MAREUIL, C. D’ALESSANDRO, G. BAILLY, F. BÉCHET, M.-N. GARCIA, M. MOREL, R. PRUDON, J. VÉRONIS, “Evaluating the pronunciation of proper names by four French grapheme-to-phoneme converters”. In : Colloque « Traitement lexicographique des noms propres », Tours, France, March 2005.

  • V. MAPELLI, M. NAVA, S. SURCIN, D. MOSTEFA, K. CHOUKRI. “Technolangue : A Permanent Evaluation and Information Infrastructure”. In : Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisboa, Portugal, May 2004, p.381-384.

  • S. RAIDT, G. BAILLY, B. HOLM, and H. MIXDORFF, “Automatic generation of prosody : comparing two superpositional systems Automatic generation of prosody : comparing two superpositional systems”. In : Proceedings of Speech Prosody 2004 (SP’04), Nara, Japan, March 2004, p. 417-420.

  • C. D’ALESSANDRO, “L’évaluation des systèmes de synthèse de la parole. In : S. Chaudiron (Dir.) L’évaluation des systèmes de traitement de l’information, Chap.9, 215-239. Hermès, Lavoisier, Paris, 2004.

  • R. PRUDON, C. D’ALESSANDRO, P. BOULA DE MAREUIL, “Unit selection synthesis of prosody : evaluation using diphone transplantation”. In : S. Narayanan, A. Alwan, Text to speech synthesis : new paradigms and advances. Chap.10, p. 203-217. Prentice Hall PTR, New Jersey, 2004.

 

Partenaires du projet
 
  • ELDA (Evaluations and Language Resources distribution Agency)
  • LIMSI (Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur)
  • Equipe de recherche DELIC (Description Linguistique Informatisée sur Corpus), Université de Provence
  • ACAPELA GROUP
  • CRISCO (Centre de Recherches Inter-langues sur la Signification en Contexte)
  • ICP (Institut de la Communication Parlée)
  • LIA (Laboratoire Informatique d’Avignon)
  • MULTITEL ASBL
 
Responsable du projet
 
  • Khalid Choukri
    ELDA - 55-57, rue Brillat Savarin - 75013 Paris
    Tel. : 01 43 13 33 33 ; Fax : 01 43 13 33 30
    Mél : choukri@elda.org
  • Nicolas Moreau
    ELDA - 55-57, rue Brillat Savarin - 75013 Paris
    Tel. : 01 43 13 33 33 ; Fax : 01 43 13 33 30
    Mél : moreau@elda.org
  • Christophe d’Alessandro
    LIMSI - Unité Propre de Recherche 3251 - BP 133 - 91403 Orsay Cedex
    Tel. : 01 69 85 80 12 ; Fax : 01 69 85 80 88
    Mél : cda@limsi.fr