00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  AGILE - OURAL
mardi 18 novembre 2003


OUtil et Ressource pour l'Analyse de la Langue

Fiche du 3 avril 2007



Thème de l'action
Ressources linguistiques
Début du projet
28 novembre 2003
Durée du projet
24 mois
 
Résumé
Ce projet a pour but de mettre à disposition de la communauté, de manière gratuite ou à faible coût, des outils et de ressources de base pour le traitement de la langue écrite ou parlée.
Les outils auront la particularité de mixer à la fois des évaluations probabilistes et des automates déterministes. Ce point est fondamental car on constate que, même si des outils d'étiquetage sont disponibles actuellement, ils sont quasiment toujours à base de probabilités (coût plus faible, rapidité de traitement, apprentissage très simple). Mais des erreurs systématiques sont commises par ces outils et il est difficile de leur faire apprendre de nouvelles structures syntaxiques car, pour cela, il faut étiqueter manuellement un corpus souvent assez important. Nous proposons donc, ici, de développer des outils qui allient l'efficacité des probabilités à la possibilité de forcer certains étiquetages par des automates développés manuellement. De plus, les outils pourront conserver les ambiguïtés lorsqu'ils ont du mal à choisir afin de les transmettre à un niveau plus haut (par exemple la reconnaissance d'entités) où elles pourront être résolues.

Les ressources proposées dans ce projet comportent un lexique (informations morpho-syntaxiques, phonétiques et fréquentielles), un corpus composé de plusieurs types de discours (journaux, interviews, etc.) contenant des informations morpho-syntaxiques et un balisage d'entités, un corpus de dialogue oral transcrit.

Résultats

Rapport final OuRal
(pdf, 105 pages, 2819 Ko)


Lexique

Nom

Description

Licence

Distributeur

Lexique 3.01

 

 

Gnu-like

LPE

Résumé

Le lexique est construit à partir des corpus suivant :

  • articles du journal “Le Monde”
  • pages web
  • sous-titres de films
  • Frantext

Le lexique obtenu est composé de 157 290 entrées et contient de nombreux traits tels que la forme, le lemme, une description phonétique, les catégories grammaticales, les fréquences des formes,

Corpus

Nom

Description

Licence

Distributeur

Corpus « Oral »
(transcriptions uniquement)

Corpus oral composé de transcriptions de 14 entretiens relatifs à la gestion locative de biens immobiliers faisant intervenir des locataires, des propriétaires bailleurs et des animateurs intervieweurs

GPL

SILEX

Corpus « Oral »
(transcriptions uniquement)

 

  • Corpus OTG (117 minutes, 315 dialogues, 61 096 mots)
  • Corpus ECOLE DE MASSY (45 minutes, 31 dialogues, 5 300 mots)
  • Corpus Accueil UBS (110 minutes, 144 dialogues, 30 101 mots)

 

GPL

VALORIA

Corpus écrit

Corpus écrit de 10 000 mots (au format TEI P4 format)
Téléchargeable librement: http://oural.sinequa.com (mars 2006) sous licence ouTagger

ouTagger 2

Sinequa

Description

Corpus oral développé par le Silex

Le SILEX s’est concentré sur un seul thème, touchant une large part de la population et mettant en jeu un vocabulaire spécifique : la gestion locative de biens immobiliers. Les entretiens se sont déroulés durant les deux premiers trimestres de 2004 et ont mobilisé des membres du projet et des personnes volontaires recrutées par annonce et sélectionnées selon des critères précis.

Corpus oral développé par le Valoria

  • Corpus OTG (Office du Tourisme de Grenoble) : le cadre d’application étudié par le corpus OTG est le renseignement touristique. Le corpus a été enregistré à la Maison du Tourisme de Grenoble. Les clients et l’agent n’ont été soumis à aucune consigne. La prise de son s’est effectuée en conditions réelles par deux microphones directifs orientés l’un vers le client et l’autre vers l’agent.
  • Corpus de l’Ecole de Massy : composé d’un ensemble de transcriptions de dialogues oraux entre des enfants et un adulte. Le sujet principal était la recherche d’informations concernant une séance de cinéma, puis une planification libre de loisirs

Corpus écrit développé par Sinequa

Corpus étiqueté d’environ 10 000 mots téléchargeable librement dans le cadre du projet OuRAL sous licence ouTagger . Ce corpus a été étiqueté avec ouTagAssist (logiciel d’étiquetage du projet OuRAL) dans le respect de la norme TEI/P4.

Outils

Nom

Description

Licence

Distributeur

ouTagAssist

Création et correction de corpus étiqueté

OuTagger

Sinequa

LIA_topic_seg

Outil de segmentation thématique

 

GPL

LIA

Boîte à outils de résumé automatique

Ensemble d’outils écrit en langage PERL composé des modules suivants :

  • FilIndex.pl, filtrage du document à traiter
  • TrmClustConceptIndx.pl, apprentissage des concepts associés au document
  • ThematicSegmenter.pl, segmentation thématique le document
  • RsmAutomatic.pl, résumé automatique.

 

GPL

LIP6

Analyseur linguistique

 

  • ouLexiconBuilder: module de compilation de dictionnaire lexical au format Normalangue
  • ouHMMTrainer, ouMETrainer : outils d’entraînement de modèles probabilistes
  • ouTagger : étiqueteur multi modèles
  • ouEval : plate-forme d’évaluation
  • librairie C/C++

Téléchargeable librement: http://oural.sinequa.com (mars 2006) sous licence ouTagger

OuTagger 3

Sinequa

 

Description

ouTagAssist : création et correction d’un corpus étiqueté

Cet outil est le résultat de nombreuses recommandations d’experts linguistes : il est donc parfaitement adapté à leurs besoins. De plus, il utilise et construit des corpus compatibles avec la norme TEI/P4 et s’intègre parfaitement dans le cadre du projet OuRAL.

L’utilisation d’une norme (TEI/P4), reconnue par la communauté, est un point essentiel dans la construction de corpus puisqu’elle offre une facilité de distribution et d’exploitation.

LIA_topic_seg :outil de segmentation automatique

L’objectif de l’outil est de permettre à un utilisateur d’effectuer une chaîne de traitements sur un texte étiqueté, mais également d’utiliser les différentes étapes de traitement de manière indépendante. Cet outil utilise le principe des chaînes lexicales.

Outils de résumé automatique

Il s’agit d’une méthode d'apprentissage semi-supervisé pour réaliser des résumés de textes par extraction de phrases pertinentes. Ce système permet d'entraîner des classifieurs en se basant sur une petite quantité de données étiquetées simultanément à une grande quantité de données non-étiquetées.

Outils d’étiquetage grammatical

L’étiqueteur du projet OuRAL regroupe un ensemble d’algorithmes associés au traitement automatique de la langue pour l’étiquetage morpho-syntaxique et en entités. Il utilise des méthodes statistiques et déterministes (HMM, Maximum d’entropie, automates) et intègre de nombreuses options telles que la possibilité d’ajouter un étiqueteur personnalisé, un « splitter » de mots composés, un devin et une méthode originale de combinaison de modèles. L’innovation de cet étiqueteur réside dans la stratégie de fusion de modèles qui permet à un utilisateur de corriger les erreurs de désambiguïsations en utilisant des méthodes déterministes.

De plus, l’étiqueteur est compatible avec la norme TEI P4 (pour les corpus) et Normalangue (pour les lexiques).

 

Publications

J.-Y. ANTOINE, S. LETTELLIER-ZARSHENAS, I. SCHADLE (2005) Le projet PAROLE PUBLIQUE de constitution d’un large corpus francophone de dialogue oral : réalisations et perspectives, in Williams G. (Ed.) La linguistique de corpus , PUR, Presses Universitaires de Rennes, Rennes, France, 19