02. EVALDA - ARCADE II

29 novembre 2006

Technolangue.net

Action de Recherche Concertée sur l’Alignement de Documents et son Evaluation

Thème de l’action : Evaluation des technologies linguistiques (projet EVALDA)

Contact

Christelle Ayache, ayache@elda.org
Jean Véronis, Jean.Veronis@up.univ-mrs.fr

Pages web du projet :

sur le site de l’université de Provence

sur le site elda.org

Résumé | Résultats | Publications | Partenaires | Dates du projet

Résumé

Les techniques d’alignement constituent un préalable à l’exploitation de corpus parallèles multilingues. Qu’il s’agisse d’aligner au niveau des paragraphes, des phrases ou d’apparier des unités lexicales, la plupart des applications reposent sur la possibilité d’extraire des correspondances précises entre textes sources et cibles (traductions littérales, textes équivalents, ou seulement comparables).
Quatre ans après ARCADE I, le projet lance une nouvelle campagne d’évaluation dans le domaine de l’alignement multilingue, avec des objectifs plus ambitieux incluant un alignement plus fin et portant sur plusieurs autres langues (élargissement à des langues distantes du français).

Résultats

LE PACKAGE D’EVALUATION ARCADE II EST DESORMAIS DISPONIBLE AUPRES D’ELRA :

Package d’évaluation ARCADE II (référence ELRA-E0018)

Ce package comprend l’ensemble des données utilisées lors de la campagne d’évaluation ARCADE II. Il regroupe des ressources, des protocoles, des outils de notation, les résultats de la campagne officielle, etc., qui ont été utilisés ou produits pendant la campagne. Le but de ce « package » d’évaluation est de permettre à tout acteur externe de pouvoir évaluer son propre système.

Les scores des systèmes participants ont été calculés en utilisant la F-mesure pour T1 (alignement phrastique) et la précision pour T2 (alignement des entités nommées). Les résultats sont donc compris entre 0 et 1, les meilleurs résultats devant se rapprocher de 1.

Pour les langues d’Europe de l’Ouest, les résultats ont montré que la tâche d’alignement est plus difficile sur les corpus bruts. Sur les corpus segmentés, la F-mesure (pour toutes les langues) est d’environ 0.98, tandis que pour les corpus bruts, elle descend légèrement autour de 0.97 pour deux systèmes évalués et jusqu’à 0.94 pour le troisième système. La séparation par langue montre que l’allemand est plus difficile à aligner. Pour les corpus segmentés, le meilleur système obtient des résultats proches de 0.99 pour l’anglais, l’italien et l’espagnol et en-dessous de 0.98 pour l’allemand.

Les résultats pour les langues distantes du français sont beaucoup plus modestes. Comme pour les langues d’Europe de l’Ouest, les résultats sont majoritairement meilleurs pour les corpus segmentés que pour les corpus bruts. Le meilleur résultat a été obtenu pour un système traitant le grec sur le corpus segmenté avec une mesure de 0.976, mais la moyenne pour ce système n’atteint que 0.871. La segmentation des langues à écriture non latine reste une problématique non résolue encore maintenant. Ainsi, seul un système a soumis ses résultats aux deux versions de corpus (brut et segmenté) et ses résultats restent très modestes avec une moyenne de 0.421.

Ressources :

Deux corpus parallèles ont été mis à la disposition des participants :

Corpus JOC (Journal Officiel de la Communauté européenne) des langues à écriture latine (français, anglais, allemand, italien, espagnol) contient 1 million de mots par langue (5 millions de mots au total). Les textes sont alignés au niveau phrase et mis au format XML et UTF-8.

Corpus MD (Le Monde diplomatique) des langues à écriture non latine (arabe, chinois, russe, persan, grec, japonais) contient des textes alignés manuellement au niveau phrase, codés en XML et UTF-8. La taille des différentes parties varie en fonction de la paire de langues concernée. Un sous-ensemble de la partie français-arabe a été annoté manuellement en entités nommées. Les tailles en mots ont été comptées dans la partie française. Le comptage est différent dans certaines langues (comme l’arabe où de nombreux clitiques sont agglutinés, ce qui réduit le nombre de mots), voire impossible (comme en chinois, où il n’y a pas de séparation graphique des mots) :

arabe-français

chinois-fr

grec-fr

japonais-fr

persan-fr

russe-fr

Nombre d’articles

150 x 2

59 x 2

50 x 2

52 x 2

53 x 2

50 x 2

Nombre de mots en français

316 000

100 000

90 000

100 000

108 000

91 000

Publications

Y.-C. CHIAO, O. KRAIF, D. LAURENT, T.-M. HUYEN NGUYEN, N. SEMMAR, F. STUCK, J. VERONIS, W. ZAGHOUANI, "Evaluation of multilingual text alignment systems : the ARCADE II project". In Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), Genoa, Italy, May 2006, p.1975-1978.

V. MAPELLI, M. NAVA, S. SURCIN, D. MOSTEFA, K. CHOUKRI. "Technolangue : A Permanent Evaluation and Information Infrastructure". In Proceedings of the 4th international Conference on Language Resources and Evaluation (LREC 2004), Lisboa, Portugal, May 2004, p.381-384.

Partenaires du projet

CRIM, INaLCO (Centre de Recherche en Ingénierie Multilingue de l’Institut National des Langues et Civilisations Orientales)

Equipe de recherche DELIC (Description Linguistique Informatisée sur Corpus), Université de Provence

ELDA (Evaluations and Language Resources distribution Agency)

LIDILEM (Laboratoire de linguistique et didactique des langues étrangères et maternelles), Université Stendhal Grenoble 3

LIC2M ((Laboratoire d’ingénerie de la connaissance multimédia multilingue), CEA/LIST

LORIA (Laboratoire Lorrain de Recherche en Informatique et ses Applications)

Xerox Research Center Europe

Responsable du projet

Khalid Choukri
ELDA - 55-57, rue Brillat Savarin - 75013 Paris
Tel. : 01 43 13 33 33 ; Fax : 01 43 13 33 30
Mél : choukri@elda.org

Jean Véronis
CILSH
Université de Provence
29, Avenue Robert Schuman
13621 Aix-en-Provence Cedex 1
France
tél : +33 (0) 4 42 95 31 37
fax : +33 (0) 4 42 95 34 95
Mél : Jean.Veronis@up.univ-mrs.fr

Dates du projet

Date de début : 4 décembre 2002
Date de fin : 4 avril 2006