00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  Ressources terminologiques
mardi 10 octobre 2006


La construction de ressouces terminologiques

Suite à l’utilisation généralisée des outils de bureautique, à l’internationalisation des échanges et au développement d’Internet, la production de documents sous forme électronique s’accélère sans cesse. Or pour produire, diffuser, rechercher, exploiter et traduire ces documents, les outils de gestion de l’information ont besoin de ressources terminologiques. La gamme des produits à base terminologique nécessaires pour répondre à ces besoins s’élargit considérablement. A côté des bases de données terminologiques multilingues classiques pour l’aide à la traduction, on voit apparaître de nouveaux types de ressources terminologiques adaptées aux nouvelles applications de la terminologie : thesaurus pour les systèmes d’indexation automatique, index hypertextuels structurés pour la navigation dans les documentations techniques électroniques ou sur les sites Web, référentiels terminologiques pour les systèmes de gestion de données techniques, ontologies pour le Web sémantique, pour les mémoires d’entreprise ou pour les systèmes d’extraction d’information, etc.

Pour mettre en place, ou rendre plus performante, une application de gestion de l’information dans une entreprise ou dans une institution, les ressources terminologiques nécessaires pour garantir l’efficacité du système sont rarement déjà disponibles sous la forme adéquate. Se posent alors les problèmes de leur construction et de leur mise à jour, ainsi que de leur recyclage si elles existent déjà sous des formes inappropriées. Il s’avère d’emblée que le gisement essentiel pour l’acquisition de ressources terminologiques est constitué par des documents textuels, que ce soit, selon les contextes, des documents techniques, des articles scientifiques, des compte rendus d’entretiens avec des experts, des contenus de site Web, ... Il faut donc disposer d’outils informatiques d’analyse de textes pour la construction de ressources terminologiques.

Dans les années 90, cette pression des applicationsa rencontré un contexte favorable du côté des recherches en Traitement Automatique des Langues : d’une part, les travaux en analyse statistique de la langue ont connu un renouveau certain, et, d’autre part, on a conçu des analyseurs à grande échelle qu’ils soient partiels, c’est-à-dire ne traitant qu’une partie des textes, ou peu profonds, c’est-à-dire ne fournissant que des informations incomplètes sur les données traitées. C’est de la rencontre entre ces besoins importants en milieu industriel et les recherches menées en traitement de corpus textuels que s’est constituée la problématique de recherche sur l’acquisition de ressources terminologiques à partir de textes.

On peut classer les outils de TAL d’aide à construction de ressources terminologiques à partir de textes en deux grandes catégories : les outils d’extraction de termes et les outils de structuration de termes.

Extraction de termes

Une première classe regroupe les outils dont la visée est l’extraction à partir du corpus analysé de ’’’candidats termes’’’, c’est-à-dire de mots ou groupes de mots susceptibles d’être retenus comme termes par l’analyste en charge de la construction de la ressource terminologique. Les méthodes les plus précises sont basées sur une analyse morphosyntaxique des textes : reconnaissance des catégories grammaticales des mots (nom, verbe, adjectif, ...), et identification de groupes syntaxiques (groupes nominaux, verbaux, adjectivaux, ...). Par exemple, à partir d’un corpus dans le domaine médical, un système d’extraction de termes identifiera les candidats termes ’’réanimation chirurgicale’’ ou ’’scanner thoracique’’, qui sont des groupes nominaux, constitués d’un nom et d’un adjectif, et les candidats termes ’’pratiquer un scanner’’ ou ’’réaliser une échographie’’, qui sont des groupes verbaux, constitués d’un verbe et d’un complément d’objet. A chaque terme extrait peuvent être associées des informations numériques, comme sa fréquence, le nombre de termes différents dont il est constituant, etc. L’organisation des termes complexes extraits sous la forme de listes de termes partageant un même élément pivot constitue un aide particulièrement utile pour la structuration terminologique d’un domaine (par exemple : ’’échographie abdominale’’, ’’échographie hépatique’’, ’’échographie thoracique’’, ou ’’effectuer une écographie’’, ’’pratiquer une écographie’’, ’’réaliser une écographie’’).

Structuration de termes

La gamme des outils d’aide à la structuration de terminologie est large. L’objectif est de rapprocher des termes qui peuvent avoir une proximité conceptuelle forte. Les méthodes statistiques de cooccurrence, développées dans le domaine de la recherche d’information, sont les plus connues et les plus anciennes : elles rapprochent des termes qui apparaissent fréquemment dans les mêmes documents ou paragraphes ou phrases. Les méthodes d’analyse distributionnelle construisent des classes de termes qui se retrouvent régulièrement dans les mêmes contextes syntaxiques. Par exemple, toujours à partir d’un corpus dans le domaine médical, un outil d’analyse distributionnelle rapprochera les termes échographie, radiographie et scanner, car chacun fonctionne comme sujet des verbes montrer et confirmer et complément d’objet des verbes effectuer et réaliser. Le repérage de la position syntaxique se fait grâce à l’exploitation d’analyseurs syntaxiques à large couverture.

Les outils de repérage de patrons de relations détectent en corpus des mots ou contextes syntaxiques répertoriés comme susceptibles de marquer telle ou telle relation entre deux éléments. Par exemple, le verbe révéler est le marqueur d’une relation entre un « type d’examen » et un « type de lésion ».

Bibliographie

-  Bourigault D. & Jacquemin C., Construction de ressources terminologiques, in J.-M. Pierrel (éd.), /Industrie des langues/, Hermès, Paris, 2000, pp. 215-233

-  Bourigault D. & Aussenac-Gilles N., Construction d’ontologies à partir de textes, in Actes de la 10ème conférence sur le Traitement Automatique des Langues (TALN 2003), Batz-sur-Mer, 11-14 juin 2003

-  www.sciences.univ-nantes.fr /info/recherche/taln2003/articles/tut3.pdf

Thierry Hamon