00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  AGILE - ALIZÉ
mardi 18 novembre 2003


Réalisation d'une plateforme logiciel libre en vérification automatique du locuteur

Fiche du 1er avril 2004



Thème de l'action
Ressources linguistiques
Début du projet
-
Durée du projet
24 mois
 
Résumé
L'objectif principal du projet ALIZÉ est la réalisation d'une plateforme logiciel libre en vérification automatique du locuteur. Le consortium ELISA (elisa.ddl.ish-lyon.cnrs.fr), composé de plusieurs laboratoires francophones, existe depuis cinq ans et a participé chaque année aux évaluations annuelles en reconnaissance du locuteur organisées par NIST aux Etats-Unis. Lors des évaluations NIST 2001, le meilleur système ELISA est arrivé en bonne position (4ème sur une douzaine de participants). Cette position a été confortée en 2002, avec une quatrième place sur vingt-deux participants en vérification, et une première place sur deux des trois conditions de la tâche de segmentation en locuteurs. Fort de ces succès, fruits d'une collaboration de cinq ans entre les différents laboratoires du consortium, les partenaires du projet ALIZÉ souhaitent développer, à partir de leur savoir-faire, une plateforme logicielle accessible à tous. L'objectif est de transmettre les acquis aux entreprises et laboratoires académiques qui souhaiteraient se lancer dans la vérification automatique du locuteur. En bénéficiant dès le début d'une plateforme « état de l'art », performante et didactique, les nouveaux intervenants pourront expérimenter directement de nouvelles idées, en terme de recherche comme d'applications. Les buts du projet ALIZÉ sont donc de promouvoir la reconnaissance du locuteur (et ses applications) ; de faciliter le transfert et la valorisation des connaissances entre les laboratoires académiques et le monde industriel ; d'inciter les laboratoires privés et publics Européens à participer aux campagnes d'évaluation internationales ; de proposer un système libre pour étalonner les comparaisons de performances ; de sauvegarder les investissements réalisés, en créant une forte communauté d'utilisateurs pour assurer le devenir et la maintenance des logiciels.

Objectifs
Les objectifs principaux du projet sont :
de promouvoir la reconnaissance du locuteur (et ses applications) ;
de faciliter le transfert et la valorisation des connaissances entre les laboratoires académiques et le monde industriel ;
d'inciter les laboratoires privés et publics Européens à participer aux campagnes d'évaluation internationales ;
de proposer un système libre pour étalonner les comparaisons de performances ;
de sauvegarder les investissements réalisés, en créant une forte communauté d'utilisateurs pour assurer le devenir et la maintenance des logiciels.

Ces objectifs seront portés par la réalisation d'une plateforme logicielle diffusée sous la forme de 'logiciel libre', apte à traiter tous les aspects de la vérification automatique du locuteur. Cette plateforme est issue des travaux réalisés dans le cadre du consortium ELISA (elisa.ddl.ish-lyon.cnrs.fr), composé de plusieurs laboratoires francophones. Ce consortium participe chaque année aux évaluations des systèmes de vérification du locuteur organisées par NIST aux Etats-Unis, depuis cinq ans. La publicité assurée au projet, par la participation aux campagnes d'évaluation, par la publication des travaux et par la création et la maintenance d'un site Web sera également un moyen primordial pour assurer la réussite du projet.
Les atouts majeurs du projet sont de s'appuyer sur un ensemble de laboratoires reconnus au niveau international dans la discipline visée et collaborant ensemble depuis plusieurs années. Le premier point est démontré par le niveau de performance obtenu durant les évaluations NIST, par la liste de publication des participants et par le soutien industriel et institutionnel recueilli autour du projet (DGA, THALES, CALISTEL, NIST, COST 275, etc.). Le deuxième point est validé par les résultats du consortium ELISA, qui développe et administre un ensemble d'outils logiciels depuis plus de 5 ans et par les publications co-signées par le consortium (elisa.ddl.ish-lyon.cnrs.fr).

Mise en œuvre et état de l'art
La reconnaissance du locuteur s'inscrit dans le champ du traitement automatique de la parole et partage de nombreux outils communs avec la reconnaissance de la parole : l'étape de paramétrisation du signal est presque systématiquement fondée sur une analyse cepstrale et les deux paradigmes les plus utilisés sont la DTW (pour des systèmes embarqués à vocabulaire fixe) et les techniques statistiques fondées sur le formalisme des chaînes de Markov cachées (HMMs, pour Hidden Markov Models).
En reconnaissance du locuteur, les systèmes à base de DTW sont en forte perte de vitesse. Si leurs avantages en terme de ressources calculatoires sont bien connus, le manque général de souplesse et le plafonnement de leurs performances depuis une dizaine d'années les condamnent à court terme.
La famille des systèmes statistiques de reconnaissance du locuteur se découpe essentiellement en deux classes, les systèmes exploitant des HMMs - souvent issus de systèmes de reconnaissance de la parole et souvent dépendants du texte prononcé - et les systèmes à base de mixture de gaussiennes (systèmes GMMs pour Gaussian Mixture Models), une version simplifiée des HMMs possédant un seul état. Les systèmes à bases de HMMs (Dragon [3], Picasso [4], France-Télécom [5], LIMSI [6]) montrent un avantage lorsque le texte est connu mais au prix d'une complexité importante. Il semblerait aussi que ces systèmes s'adaptent peu facilement à de nouvelles conditions d'exploitation.
Les systèmes à base de GMMs représentent la majorité des systèmes « état de l'art ». La pertinence de ce type de modélisation a été prouvée initialement par D. Reynolds [1] puis renforcée par la communauté scientifique [2]. La simplicité intrinsèque du modèle explique cette quasi omniprésence. Le consortium a retenu cette dernière approche, qui sera mise en oeuvre dans le projet ALIZÉ.
L'apprentissage d'un modèle statistique multi-gaussien est réalisée à l'aide de l'algorithme « Expectation-Maximization ou EM». En raison du grand nombre de données nécessaires à l'apprentissage de ces modèles statistiques, le modèle de chaque locuteur est déduit d'un modèle de parole générique, appelé « modèle du monde ». La déduction des modèles des locuteurs de la base se fait par adaptation (Maximum à Posteriori, Méthodes de Régression Linéaires). L'adaptation du modèle nécessite un matériel d'apprentissage moins important que dans le cas d'un apprentissage complet. La structure et l'apprentissage du modèle du monde comme l'optimisation des techniques d'adaptation ont constitué l'un des points majeurs des travaux récents [7] [8] [9].
A cette modélisation s'ajoute la théorie Bayésienne de la décision. Cette méthode est fondée sur le calcul d'un rapport de vraisemblance entre l'hypothèse « client » (estimée grâce au modèle du client) et l'hypothèse « imposteur » (estimée par un « modèle du monde »), en utilisant le matériel de test.
Afin de lutter contre la variabilité des modèles provoquée par un canal de transmission fluctuant ou par un système d'acquisition variable, une étape de normalisation des mesures s'est imposée dans l'état de l'art. Cette normalisation a pour objectif de s'affranchir des différences entre les locuteurs et entre les conditions d'apprentissage et de tests. Elle permet également de prendre en compte les différences de qualité des modèles des locuteurs clients. Différentes techniques ont été proposées et se sont imposées, comme les normalisations de distribution (de type « centrée/réduite ») Znorm, Hnorm et Tnorm [10] [11] [12] [13]. Une méthode, fondée sur la théorie Bayésienne de la décision, a également été proposée, avec des résultats similaires [14]
Le projet proposé est issu des travaux du consortium ELISA qui propose une collection d'outils et qui valide ceux-ci à l'occasion des campagnes d'évaluation NIST. Cela inclut un système de paramétrisation du signal (paramétrisation cepstrale), un système de modélisation GMM et les outils de décision et de normalisation. L'ensemble de ces modules est au niveau de l'état de l'art.

Références
[1]D. Reynolds, Ph.D. thesis, MIT, A gaussian mixture modeling approach to text-independent speaker identification, 1992.
[2]The ELISA Consortium, The ELISA systems for the NIST'99 Evaluation in Speaker Detection and Tracking, Digital Signal Processing, Vol. 10, No. 1-3, pp. 143-153, January/April/July 2000.
[3]Weber F., Peskin B., Newman M., Corrada-Emmanuel A., Gillick L., Speaker Recognition on Single- and Multispeaker Data, Digital Signal Processing, Vol. 10, No. 1-3, pp. 75-92, January/April/July 2000.
[4]Bimbot F., Blomberg M., Boves L., Chollet G., Jaboulet C., Jacob B., Kharroubi J., Koolwaaij J., Lindberg J., Mariéthoz J., Mokbel C., Mokbel H., An overview of the Picasso project research activities in speaker verification for telephone applications, Eurospeech 99, September 1999, Budapest, Hungary.
[5]Charlet D., Authentification vocale par téléphone en mode dépendant du texte, Thèse de l'ENST, 1997.
[6]Lamel L.F., Gauvain J.L., Speaker verification over the telephone, Speech Communication, Vol. 31, pp. 141-154, 2000.
[7]Doddington, G. R., Speaker recognition evaluation methodology - An overview and perspective, Workshop on Speaker Recognition and its Commercial and Forensic Applications (RLA2C), Avignon, France, 1998.
[8]Reynolds, D. A., Comparison of background normalization methods for text-independent speaker verification, Eurospeech 97, Rhodes, Greece, September 1997.
[9]Reynolds D.A., Quatieri T.F., Dunn R.B., Speaker verification using adapted gaussian mixture models, Digital Signal Processing, Vol. 10, No. 1-3, pp. 19-41, January/April/July 2000.
[10]Gravier G., Chollet G., Comparison of normalization techniques for speaker recognition, Workshop on Speaker Recognition and its Commercial and Forensic Applications (RLA2C), pp. 97-100, 1998, Avignon, France.
[11]Gravier, G., Kharroubi, J. and Chollet, G., On the use of prior knowledge in normalization schemes for speaker verification, Digital Signal Processing, Vol. 10, No. 1-3, pp. 213-225, January/April/July 2000.
[12]Ariyaeeinia A.M., Sivakumaran P., Analysis and comparison of score normalisation methods for text-dependent speaker verification, Eurospeech 97, September 1997, Rhodes, Greece.
[13]Auckenthaler R., Carey M., Lloyd-Thomas H., Score normalization for text-independent speaker verification systems, Digital Signal Processing, Vol. 10, No. 1-3, January/April/July 2000.
[14]C. Fredouille, J.-F. Bonastre, T. Merlin, AMIRAL: a block-segmental multi-recognizer approach for automatic speaker recognition, Digital Signal Processing, Vol. 10, No. 1-3, January/April/July 2000.
[15]Ivan Magrin-Chagnolleau, Guillaume Gravier, and Raphael Blouet for the ELISA Consortium, Overview of the 2000-2001 ELISA Consortium Research Activities, 2001: A Speaker Odyssey, pp. 67-72, Chania, Crete, Greece, June 2001.
[16]The ELISA Consortium, The ELISA'99 Speaker Recognition and Tracking Systems, Proceedings of the Workshop on Automatic Identification Advanced Technologies, Summit, New Jersey, United States, October 1999.


Organisation
Sous-projet 1 : Pilotage du projet
Ce sous-projet concerne le pilotage du projet. Ce pilotage sera assuré par Ivan MAGRIN-CHAGNOLLEAU du laboratoire DDL.
L'objectif de ce sous-projet est d'assurer une cohésion à l'ensemble du projet, de faire circuler l'information entre tous les partenaires à l'aide de listes de diffusions, de veiller à l'avancement du projet et au respect du calendrier initial et d'organiser les réunions trimestrielles avec tous les partenaires du projet.
Pilotage du sous-projet : Ivan MAGRIN-CHAGNOLLEAU (DDL)

Sous-projet 2 : Plateforme vérification du locuteur
Ce sous-projet concerne la réalisation de la plateforme de base en vérification du locuteur, c'est-à-dire l'intégration de toutes les techniques développées par les membres du consortium ELISA au cours des 5 dernières années. Ce sous-projet sera piloté par Jean-François BONASTRE du LIA. Participeront à ce sous-projet le LIA, le laboratoire DDL, l'IRISA, l'ENST, le CLIPS, l'université de Ballamand (comme partenaire non financé) et l'université de Fribourg (comme partenaire non financé). AtLog, partenaire industriel du projet, participera également à ce sous-projet en tant que consultant-conseil sur les aspects développement et en tant que garant de la portabilité de la plateforme logicielle sur plusieurs plateformes matérielles (Windows, Unix/Linux).
L'objectif de ce sous-projet est la réalisation des différents modules de la plateforme de base en vérification du locuteur. Cette plateforme comprendra un module de paramétrisation d'un signal audio (comprenant notamment une FFT, un programme d'analyse par banc de filtres, une analyse cepstrale, plus quelques autres paramètres développés par les membres du consortium ELISA), un module de modélisation statistique (comprenant principalement un programme pour entraîner un modèle par mélange de gaussiennes avec un algorithme EM), un module de normalisation (intégrant toutes les normalisations développées au cours des différentes campagnes NIST), et un module d'évaluation (qui comprend des outils de tracés de courbes et de calculs de performances).
Pilotage du sous-projet : Jean-François BONASTRE (LIA)
Le sous-projet 2 sera évalué en termes de fonctionnement de la plateforme, de ses performances sur les évaluations NIST, de sa rapidité de fonctionnement et de sa facilité d'utilisation.

Sous-projet 3 : Validation de la plateforme par les laboratoires du consortium ELISA et par l'IRIT
Ce sous-projet concerne la validation de la plateforme par les laboratoires membres du consortium ELISA ainsi que par l'IRIT. Il s'agit, pour chaque laboratoire, de développer son propre système en utilisant la plateforme du projet ALIZÉ, et de soumettre les systèmes ainsi développés aux évaluations NIST. L'IRIT jouera dans ce sous-projet le rôle d'un laboratoire académique, non membre du consortium ELISA, qui souhaiterait développer un système de vérification du locuteur à partir de la plateforme réalisée.
Ce sous-projet sera piloté par Frédéric BIMBOT de l'IRISA. Participeront à ce sous-projet le LIA, le laboratoire DDL, l'ENST, le CLIPS, l'université de Ballamand (en partenaire non financé), l'université de Fribourg (en partenaire non financé) et l'IRIT.
Pilotage du sous-projet : Frédéric BIMBOT (IRISA)
Participation aux évaluations NIST 2003.
Participation aux évaluations NIST 2004.
L'évaluation du sous-projet 3 se fera directement à partir des performances obtenues par les différents systèmes soumis aux évaluations NIST.

Sous-projet 4 : Validation de la plateforme par les partenaires industriels du projet
Ce sous-projet concerne la validation de la plateforme par les partenaires industriels du projet ALIZÉ, afin de montrer l'utilisabilité de la plateforme en environnement industriel.
Ce sous-projet sera piloté par Laurent BESACIER du CLIPS.
Pilotage du sous-projet : Laurent BESACIER (CLIPS)
Evaluation de la plateforme par THALÈS.
Evaluation de la plateforme par CALISTEL (partenaire non financé).
Evaluation de la plateforme par la DGA (partenaire non financé).
L'évaluation du sous-projet 4 se fera directement à partir des performances obtenues par les différents partenaires industriels, et par leurs remarques sur la facilité d'utilisation de la plateforme.

Retombées du projet
La réussite du projet sera mesurée par la réalisation de la plateforme, et par sa capacité à répondre aux besoins de ses utilisateurs potentiels. La plateforme devra être modulaire, facile à utiliser et à configurer et rapide. Ces trois critères seront respectés tout au long du projet.
La plateforme permettra à tout laboratoire industriel ou académique qui le souhaite de disposer d'un système de vérification du locuteur état de l'art. Cela permettra donc de développer de nouvelles idées scientifiques en partant déjà d'un système performant.
Cette plateforme permettra également de conserver en France un savoir faire et une avance sur le thème de la vérification du locuteur. Cela donnera notamment un avantage certain aux entreprises qui souhaiteraient intégrer ces technologies dans leurs produits, ou qui voudraient développer de nouvelles pistes de recherche sur ces thèmes.
Comme cela a déjà été dit, cette plateforme a vocation à devenir une plateforme logiciel libre. Elle sera donc accessible à tout laboratoire industriel ou académique qui en fera la demande. En outre, le consortium ELISA continuera d'exister au delà de la durée de ce projet, et assurera donc la maintenance de la plateforme et son évolution.

Etat d'avancement

Avancement de la plateforme

La première version du toolkit ALIZE (le développement est confié à Frédéric WILS, LIA) ainsi que la documentation technique sont disponibles, sous forme de logiciel libre (licence LGPL), sur le site web du projet : http://www.lia.univ-avignon.fr/heberges/ALIZE

Les caractéristiques principales d'ALIZE montrent :
  • Une modélisation poussée, réalisée en UML, un développement en C++, testé sur LINUX et Windows et un suivi de modification par CVS.
  • Un soucis constant de la qualité/sûreté de fonctionnement, par une gestion masquée à l'utilisateur de la mémoire et par l'implémentation de classes de test.
  • Une structure en « serveurs ». Le toolkit est basé sur des serveurs logiciels remplissant chacun des fonctions précises, comme la gestion des données, la gestion des modèles, la gestion des calculs...
  • Une structure logique unifiée des programmes utilisateur. L'ensemble des programmes montre une même structure sous forme d'une boucle de traitement des données.
  • Une gestion des aspects « temps réel ». L'un des objectifs d'ALIZE est de permettre un développement facile de démonstrateurs, en mode « micro ouvert ».
  • Des performances importantes en termes calculatoires.
    La première version, disponible, inclut :
  • Le serveur de mixtures (les modèles).
  • Le serveur de statistiques (les calculs).
  • Une version préliminaire, en mode fichier, du serveur de vecteurs (les données).
  • Une version préliminaire du serveur de label (gestion des segments).
  • Une gestion des fichiers d'entrée, sous forme de listes avec reconnaissance automatique du type des fichiers manipulés et une gestion unifiée des fichiers de configuration et de la ligne de commande.
  • La documentation technique.
  • Une version préliminaire du manuel de l'utilisateur.
  • Des exemples de programmes utilisateur, basés sur ALIZE, correspondant aux trois étapes principales de la reconnaissance du locuteur :
    • Apprentissage d'un modèle initial (modèle du monde)
    • Adaptation de ce modèle avec un ensemble de données (apprentissage du modèle d'un locuteur par adaptation du modèle du monde)
    • Calcul des vraisemblances et des rapports de vraisemblance (mesure de ressemblance entre deux enregistrements vocaux)
Validation de la plateforme ALIZE

La plateforme a été diffusée à différents partenaires d'ALIZE et à quelques intervenants externes. Elle a ou va être utilisée notamment :
  • dans le cadre d'un enseignement d'initiation à la recherche (24 étudiants 3ème année de l'IUP GMI d'Avignon),
  • dans le cadre de projets de fin d'études (2 étudiants en DESS IVDI, Avignon)
  • durant les campagnes d'évaluation NIST SRE 2004 et Technolangue EVALDA/ESTER, par différents partenaires du projet (LIA, CLIPS, IRIT et Thales Communications).
Les partenaires académiques d'ALIZE ont également participé en 2003 aux différentes campagnes internationales d'évaluation NIST SRE (IRISA et ENST), NIST reconnaissance de la langue (DDL et IRIT), NIST RT (LIA et CLIPS).

Quelques publications liées au projet

[1] Frédéric Bimbot, Jean-François Bonastre, Corinne Fredouille, Guillaume Gravier, Ivan Magrin-Chagnolleau, Sylvain Meignier, Teva Merlin, Javier Ortega-Garcia, Dijana Petrovska-Delacrétaz, and Douglas A. Reynolds. A Tutorial on Text-Independent Speaker Verification, Journal on Applied Signal Processing, 2004.
[2] Jean-François Bonastre, Frédéric Bimbot, Louis-Jean Boë, Joseph P. Campbell, Douglas A. Reynolds, and Ivan Magrin-Chagnolleau. Authentification des personnes par leur voix : un nécessaire devoir de précaution, JEP 2004, Fez, Maroc, 2004.
[3] Jean-François Bonastre, Frédéric Bimbot, Louis-Jean Boë, Joseph P. Campbell, Douglas A. Reynolds, and Ivan Magrin-Chagnolleau. Person Authentication by Voice: A Need for Caution. Proceedings of EUROSPEECH 2003, Geneva, Switzerland, September 2003.
[4] Daniel Moraru, Sylvain Meignier, Laurent Besacier, Jean-Francois Bonastre, and Ivan Magrin-Chagnolleau. The ELISA Consortium Approaches in Speaker Segmentation During the NIST 2002 Speaker Recognition Evaluation. Proceedings of ICASSP 2003, Hong Kong, China, April 2003.
[5] S. Meignier, D. Moraru, C. Fredouille, L. Besacier, and J.-F. Bonastre, Benefit of prior acoustic segmentation for speaker segmentation systems, ICASSP'04, Montreal, Canada.
[6] D. Moraru, S. Meignier, C. Fredouille, L. Besacier, and J.-F. Bonastre, The ELISA consortium approaches in Broadcast News speaker segmentation during the NIST 2003 Rich Transcription evaluation", ICASSP'04, Montreal, Canada
[7] M. Vacher, D. Istrate, L. Besacier, E. Castelli, J-F. Serignat, Smart Audio Sensor for Telemedicine, Smarts Objects Conference (SOC), Grenoble, France, May 15-17,