Portail des technologies de la langue

00000001.jpg

CHERCHER

Accueil

Contact

Technologies de la Langue

Introduction au domaine

Enjeux & Limites

Chiffres cl�s

Études de cas & Visites d’entreprises

Panorama

Les acteurs du domaine

Formations et m�tiers

Th�ses

Ressources et outils

Initiatives nationales & europ�ennes

Action Technolangue

Pr�sentation

Th�mes

Projets

Plate-forme EVALDA

EVALDA - ARCADE II

EVALDA - CESART

EVALDA - CESTA

EVALDA - ESTER

EVALDA - EQUER

EVALDA - MEDIA

EVALDA - EVASY

EVALDA - EASY

AGILE - ALIZÉ

AGILE - OURAL

AGILE - TILT

AGILE - WATSON

ATONANT

CARMEL

EurADiC

NEOLOGOS

NomsPropres

NORMALANGUE - RNIL

NORMALANGUE - Technovox

Technolangue.Net

Normes & Standard

Enjeux

Instances

Imprimer cet article

AGILE - OURAL

mardi 18 novembre 2003

OUtil et Ressource pour l'Analyse de la Langue

Fiche du 3 avril 2007

R�sum� | R�sultats | Publications | Partenaires | Contacts

Th�me de l'action

Ressources linguistiques

D�but du projet

28 novembre 2003

Dur�e du projet

24 mois

R�sum�

Ce projet a pour but de mettre � disposition de la communaut�, de mani�re gratuite ou � faible co�t, des outils et de ressources de base pour le traitement de la langue �crite ou parl�e.
Les outils auront la particularit� de mixer � la fois des �valuations probabilistes et des automates d�terministes. Ce point est fondamental car on constate que, m�me si des outils d'�tiquetage sont disponibles actuellement, ils sont quasiment toujours � base de probabilit�s (co�t plus faible, rapidit� de traitement, apprentissage tr�s simple). Mais des erreurs syst�matiques sont commises par ces outils et il est difficile de leur faire apprendre de nouvelles structures syntaxiques car, pour cela, il faut �tiqueter manuellement un corpus souvent assez important. Nous proposons donc, ici, de d�velopper des outils qui allient l'efficacit� des probabilit�s � la possibilit� de forcer certains �tiquetages par des automates d�velopp�s manuellement. De plus, les outils pourront conserver les ambigu�t�s lorsqu'ils ont du mal � choisir afin de les transmettre � un niveau plus haut (par exemple la reconnaissance d'entit�s) o� elles pourront �tre r�solues.

Les ressources propos�es dans ce projet comportent un lexique (informations morpho-syntaxiques, phon�tiques et fr�quentielles), un corpus compos� de plusieurs types de discours (journaux, interviews, etc.) contenant des informations morpho-syntaxiques et un balisage d'entit�s, un corpus de dialogue oral transcrit.

Résultats

Rapport final OuRal
(pdf, 105 pages, 2819 Ko)

Lexique

Nom

Description

Licence

Distributeur

Lexique 3.01

Base de donnée lexicale (160 000 formes, 44 000 fréquences orales et écrites, …)
Documentation: http://www.lexique.org/outils/Manuel_Lexique.htm
Interrogeable en ligne: http://www.lexique.org/moteur/
Téléchargeable librement: http://www.lexique.org/telecharger.php

Gnu-like

LPE

Résumé

Le lexique est construit à partir des corpus suivant :

articles du journal “Le Monde”
pages web
sous-titres de films
Frantext

Le lexique obtenu est composé de 157 290 entrées et contient de nombreux traits tels que la forme, le lemme, une description phonétique, les catégories grammaticales, les fréquences des formes,

Corpus

Nom	Description	Licence	Distributeur
Corpus « Oral » (transcriptions uniquement)	Corpus oral composé de transcriptions de 14 entretiens relatifs à la gestion locative de biens immobiliers faisant intervenir des locataires, des propriétaires bailleurs et des animateurs intervieweurs	GPL	SILEX
Corpus « Oral » (transcriptions uniquement)	Corpus OTG (117 minutes, 315 dialogues, 61 096 mots) Corpus ECOLE DE MASSY (45 minutes, 31 dialogues, 5 300 mots) Corpus Accueil UBS (110 minutes, 144 dialogues, 30 101 mots)	GPL	VALORIA
Corpus écrit	Corpus écrit de 10 000 mots (au format TEI P4 format) Téléchargeable librement: http://oural.sinequa.com (mars 2006) sous licence ouTagger	ouTagger 2	Sinequa

Description

Corpus oral développé par le Silex

Le SILEX s’est concentré sur un seul thème, touchant une large part de la population et mettant en jeu un vocabulaire spécifique : la gestion locative de biens immobiliers. Les entretiens se sont déroulés durant les deux premiers trimestres de 2004 et ont mobilisé des membres du projet et des personnes volontaires recrutées par annonce et sélectionnées selon des critères précis.

Corpus oral développé par le Valoria

Corpus OTG (Office du Tourisme de Grenoble) : le cadre d’application étudié par le corpus OTG est le renseignement touristique. Le corpus a été enregistré à la Maison du Tourisme de Grenoble. Les clients et l’agent n’ont été soumis à aucune consigne. La prise de son s’est effectuée en conditions réelles par deux microphones directifs orientés l’un vers le client et l’autre vers l’agent.
Corpus de l’Ecole de Massy : composé d’un ensemble de transcriptions de dialogues oraux entre des enfants et un adulte. Le sujet principal était la recherche d’informations concernant une séance de cinéma, puis une planification libre de loisirs

Corpus écrit développé par Sinequa

Corpus étiqueté d’environ 10 000 mots téléchargeable librement dans le cadre du projet OuRAL sous licence ouTagger . Ce corpus a été étiqueté avec ouTagAssist (logiciel d’étiquetage du projet OuRAL) dans le respect de la norme TEI/P4.

Outils

Nom	Description	Licence	Distributeur
ouTagAssist	Création et correction de corpus étiqueté	OuTagger	Sinequa
LIA_topic_seg	Outil de segmentation thématique	GPL	LIA
Boîte à outils de résumé automatique	Ensemble d’outils écrit en langage PERL composé des modules suivants : *FilIndex.pl, filtrage du document à traiter TrmClustConceptIndx.pl, apprentissage des concepts associés au document ThematicSegmenter.pl, segmentation thématique le document RsmAutomatic.pl*, résumé automatique.	GPL	LIP6
Analyseur linguistique	*ouLexiconBuilder:* module de compilation de dictionnaire lexical au format Normalangue *ouHMMTrainer, ouMETrainer* : outils d’entraînement de modèles probabilistes *ouTagger* : étiqueteur multi modèles *ouEval* : plate-forme d’évaluation librairie C/C++ Téléchargeable librement: http://oural.sinequa.com (mars 2006) sous licence ouTagger	OuTagger 3	Sinequa

Description

ouTagAssist : création et correction d’un corpus étiqueté

Cet outil est le résultat de nombreuses recommandations d’experts linguistes : il est donc parfaitement adapté à leurs besoins. De plus, il utilise et construit des corpus compatibles avec la norme TEI/P4 et s’intègre parfaitement dans le cadre du projet OuRAL.

L’utilisation d’une norme (TEI/P4), reconnue par la communauté, est un point essentiel dans la construction de corpus puisqu’elle offre une facilité de distribution et d’exploitation.

LIA_topic_seg :outil de segmentation automatique

L’objectif de l’outil est de permettre à un utilisateur d’effectuer une chaîne de traitements sur un texte étiqueté, mais également d’utiliser les différentes étapes de traitement de manière indépendante. Cet outil utilise le principe des chaînes lexicales.

Outils de résumé automatique

Il s’agit d’une méthode d'apprentissage semi-supervisé pour réaliser des résumés de textes par extraction de phrases pertinentes. Ce système permet d'entraîner des classifieurs en se basant sur une petite quantité de données étiquetées simultanément à une grande quantité de données non-étiquetées.

Outils d’étiquetage grammatical

L’étiqueteur du projet OuRAL regroupe un ensemble d’algorithmes associés au traitement automatique de la langue pour l’étiquetage morpho-syntaxique et en entités. Il utilise des méthodes statistiques et déterministes (HMM, Maximum d’entropie, automates) et intègre de nombreuses options telles que la possibilité d’ajouter un étiqueteur personnalisé, un « splitter » de mots composés, un devin et une méthode originale de combinaison de modèles. L’innovation de cet étiqueteur réside dans la stratégie de fusion de modèles qui permet à un utilisateur de corriger les erreurs de désambiguïsations en utilisant des méthodes déterministes.

De plus, l’étiqueteur est compatible avec la norme TEI P4 (pour les corpus) et Normalangue (pour les lexiques).

Publications

J.-Y. ANTOINE, S. LETTELLIER-ZARSHENAS, I. SCHADLE (2005) Le projet PAROLE PUBLIQUE de constitution d’un large corpus francophone de dialogue oral : réalisations et perspectives, in Williams G. (Ed.) La linguistique de corpus , PUR, Presses Universitaires de Rennes, Rennes, France, 193-204

J.-Y. Antoine, S. Letellier-Zarshenas, P. Nicolas, I. Schadle (2002). Corpus OTG et ECOLE_MASSY : vers la constitution d’un collection de corpus francophones de dialogue oral diffusés librement. Actes TALN’2002 . Nancy, France. Juin 2002. p. 319-324.

P. Nicolas, S. Letellier-Zarshenas, I. Schadle, J.-Y. Antoine, J. Caelen (2002). Towards a large corpus of spoken dialogue in French that will be freely available: the “ Parole Publique ” project and its first realisations. Actes LREC’2002 . Las Palmas de Gran Canaria, Espagne. Mai 2002. p. 649-655.

Partenaires du projet

Sinequa SAS
Laboratoire de Psychologie Exp�rimentale CNRS UMR 8581 - Universit� Paris V
Laboratoire d'Informatique de Paris 6, Universit� Paris 6
Laboratoire Informatique d'Avignon
Laboratoire VALORIA (EA 2593 - Universit� de Bretagne Sud)
Silex (UMR 8528 du CNRS - Universit� Lille 3)

Contacts

LIA	Patrice Bellot	patrice.bellot@lia.univ-avignon.fr
LIP6	Patrick Gallinari	patrick.gallinari@lip6.fr
LPE	Boris New	boris.new@univ-paris5.fr
SILEX	Nathalie Gasglia	gasiglia@univ-lille3.fr
Sinequa	Sinequa Labs	research@sinequa.com
VALORIA	Frank Poirier	frank.poirier@univ-ubs.fr