00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  AGILE - TILT
mardi 18 novembre 2003


Atelier de Génie Informatique et Linguistique - Trésor Informatisé de la Langue Technique

Fiche du 31 mars 2004



Thème de l'action
Ressources linguistiques
Début du projet
28 novembre 2002
Durée du projet
24 mois
 
Résumé
Le projet TILT avait pour objectif de constituer un corpus du français technique utilisé dans les normes et d'aligner ce corpus sur son équivalent anglais. TILT visait ainsi à étendre les travaux effectués par l'ATILF sur le français littéraire (base textuelle FRANTEXT, dictionnaire informatisé TLFi) et à constituer ainsi une brique linguistique de base pour permettre à la fois le développement futur d'applications à forte valeur ajoutée (services d'informations multilingues, nouveaux modes d'accès à l'information normative adapté aux PME, aide à la traduction, etc.) et des recherches en linguistique sur le français technique.
Le projet a été réalisé sur la base d'un ensemble de 1 000 normes fournies par l'AFNOR en français et en anglais représentant environ 35 000 pages de texte utilisant un vocabulaire technique très précis et couvrant l'ensemble des technologies et pratiques de l'industrie. Le corpus a été balisé à 3 niveaux (structurel, morphosyntaxique et sémantique). La validation a été effectuée indépendamment par des linguistes de l'ATILF et des spécialistes des normes de l'AFNOR.
L'intégration des logiciels et la constitution des corpus ont été faites grâce au soutien et à l'expérience des équipes de Lingway, société spécialisée en linguistique.

Objectifs
Le projet TILT avait pour objectif de constituer un corpus du français technique utilisé dans les normes et d'aligner ce corpus sur son équivalent anglais. Un travail considérable a déjà été effectué sur le français littéraire mais il existe encore un manque très important sur le français utilisé dans les entreprises à des fins techniques. Le projet TILT visait à combler ce déficit et à offrir une ressource qui constituera la brique linguistique de base nécessaire au développement d'applications linguistiques à forte valeur ajoutée :
  • Assistance à la traduction, grâce à l'exploitation des corpus alignés franco-anglais,
  • Réalisation de services d'information de type recherche d'informations complexes, indexation, constitution automatique de résumés, etc.

Le projet TILT visait également à mettre ce corpus technique à la disposition de la communauté scientifique à des fins de recherche linguistique sur le français technique. Cette mise à disposition est effectuée dans les conditions similaires à celles utilisées dans Frantext (visibilité d'un contexte limité à 900 caractères) et garantissant la protection des droits d'auteurs et notamment de l'AFNOR. Il est à noter que le développement de ce type de consultation autorisera un accès libre à un corpus technique important du français, chose quasiment inexistante actuellement du fait des problèmes de droits d'auteurs et de confidentialité habituellement attachés aux textes techniques.
De manière plus précise, l'objectif du projet TILT était de traiter un ensemble de 1  000 normes disponibles en français et en anglais (soit environ 35 000  pages de texte) afin de constituer un corpus étiqueté et aligné sur le français et l'anglais. Chaque norme est un texte d'une trentaine de pages, fortement structuré et contenant des descriptions et un vocabulaire techniques très précis. Les normes s'appliquent à une très large variété de domaines (tels que Agro-alimentaire, Bâtiment et Travaux publics, Collectivités locales, Environnement, Mécanique, Qualité, Santé, Services, etc.) couvrant l'ensemble des technologies en usage dans l'industrie. Les 1  000 normes utilisées dans le projet sont représentatives de tous ces domaines et choisies pour leur disponibilité en français et en anglais ainsi qu'au format texte. Le choix de ce type de texte est donc intéressant pour construire un corpus relativement large du français technique. Le corpus issu du projet sera ensuite étendu en y incorporant d'autres normes (environ 30 000 normes françaises, européennes ou ISO sont disponibles en français et en anglais) qui nécessiteront un travail préliminaire de saisie (documents papier, ou PDF image) qui sort du cadre de ce projet.

Mise en œuvre et état de l'art
L'ingénierie des langues est devenue, au cours des dernières années, un des domaines-clés pour répondre aux besoins de notre société en terme d'analyse et exploitation de gisements d'information, le plus souvent sous forme textuelle, aujourd'hui disponibles (Pierrel, 2000)1. Une rapide analyse de l'évolution de la linguistique au cours du dernier demi-siècle montre que sa confrontation avec l'informatique et les mathématiques a permis à la linguistique de se définir de nouvelles approches.

Des besoins existent dans les domaines de la normalisation et de la certification où l'enjeu consiste à assurer l'influence et la compétitivité du système français avec toutes les conséquences économiques dans le contexte de la mondialisation.
AFNOR doit développer pour les besoins de tous les utilisateurs de normes, qu'ils soient fabricants, exportateurs ou non, laboratoires, donneurs d'ordre, terminologues ou consommateurs, des produits d'information multilingues à forte valeur ajoutée dont la réalisation ne peut être envisagée qu'après avoir effectué un balisage suffisamment fin de toutes les normes existantes. De plus, AFNOR est confrontée au problème de la traduction en français des normes européennes et internationales le plus souvent préparées en anglais seulement.

Par ailleurs la communauté scientifique de recherche oriente de plus en plus ses travaux sur les domaines techniques et est fortement demandeuse de corpus techniques pour asseoir ses recherches.

Sur le plan littéraire, il existe un ensemble très important avec la Base textuelle : FRANTEXT, développée à l'ATILF , dont le corpus actuel comporte 3350 textes qui à 80 % sont des textes littéraires en texte intégral.
Le second type de corpus étiqueté important sur notre langue correspond au « Trésor de la Langue Française », grand dictionnaire correspondant à : 270 000 définitions de mots, 430000 exemples d'usages, 350 millions de caractères (hors marques de balisage).
Le Trésor de la langue française informatisé (Dendien, 1996) se présente à la fois comme une base lexicologique et une base de connaissances dont l'accessibilité est immédiate via l'internet. Le TLFi se distingue des autres dictionnaires électroniques existants, par la finesse de la structuration des données en « objets » interrogeables selon divers critères, et par une interface simple et conviviale qui offre trois niveaux de consultation via le logiciel STELLA.

Par ailleurs il existe plusieurs corpus de français technique mais leur disponibilité tant pour la recherche que pour le développement industriel reste très limitée. Réalisés le plus souvent dans le cadre de projets industriels, ces corpus demeurent fortement confidentiels.
C'est l'une des innovations majeures visée par le projet TILT que de pouvoir donner accès à un corpus technique large, actuel et représentatif des technologies utilisées dans l'industrie.
Enfin il existe quelques corpus multilingues alignés, une des ressources disponibles sur le Web correspond au projet SILFIDE, fruit d'une coopération entre le CLIPS, le LORIA, l'INALF (devenu aujourd'hui l'ATILF), le LIMSI et le LPL, ce projet a regroupé un certain nombre de textes multilingues alignés, de genre très divers : littérature, textes techniques, transcription de dialogues, etc. A ce jour ce serveur regroupe : 13 textes en danois, 17 en néerlandais, 33 en anglais, 17 en espagnol, 62 en français, 87 en italien, 8 en polonais, etc. On peut aussi citer au niveau européen les ressources diffusées par ELRA

Produit d'une initiative de la Commission européenne, le groupe EAGLES (Expert Advisory Group on Language Engineering Standards) a pour objectif de pousser le développement de spécifications fonctionnelles communes pour la description et la représentation de données linguistiques, conciliant le besoin et les exigences d'applications opérationnelles ayant de fortes chances d'émerger dans les années à venir.

En fait, s'il y a de nombreux développements sur de l'anglais ou sur du français littéraire ou de la langue parlée, il n'existe pas actuellement de corpus technique français réellement significatif et accessible publiquement, notamment à des fins de recherche, et encore moins d'un tel corpus aligné sur son équivalent anglais. Le projet TILT permettra de développer un tel corpus à partir de textes d'une grande qualité technique et d'une grande richesse et précision du vocabulaire. L'apport du corpus technique bilingue français/anglais des normes constituera une avancée majeure dans le domaine technique et une brique linguistique importante non seulement pour les partenaires mais pour le monde de la recherche.

Organisation
Le projet TILT sera organisé en 3 phases faisant l'objet de plusieurs lots :
  • Une phase d'étude et de spécification afin d'affiner l'analyse des besoins, de spécifier le travail à effectuer sur le corpus et en conséquence de spécifier les modifications à apporter aux logiciels et ressources linguistiques et leur intégration
  • Une phase d'implémentation afin d'intégrer les outils logiciels et linguistiques, d'effectuer le balisage et de constituer le corpus
  • Une phase de validation du corpus
Le projet comprendra également un lot 4 de gestion et de coordination sur toute la durée.

Ces différentes phases se sont déroulées comme prévu, à noter toutefois le gros travail préliminaire effectué par les partenaires pour disposer tout d'abord des 1 000 normes XMLisées en français et en anglais.
Le processus suivant a dû être utilisé :
  • AFNOR a produit un fichier XML de la norme en version française et un fichier PDF de la version anglaise.
  • Ces fichiers ont été transmis à ATILF et à Lingway (qui utilise le PDF uniquement en consultation).
  • ATILF a converti en XML le fichier PDF anglais et l'a transmis à Lingway.
  • ATILF a généré pour ses propres applications un XML « de recherche » de la version française.

Lingway, a transformé le fichier XML de la version anglaise produit par ATILF en un nouveau fichier dont la structure est la réplique du fichier XML de la version française en provenance d'AFNOR. Les 2 fichiers XML finaux ont alors pu être utilisés dans les applications de Lingway.

Retombées du projet
Les retombées du projet seront tout d'abord pour les partenaires :
  • Pour l'AFNOR :
    • Méthodologie de balisage pour pouvoir traiter tout le fonds normatif
    • Aide à la traduction par l'introduction des données terminologiques et phraséologiques bilingues extraites des normes dans l'outil de TAO acquis par l'AFNOR
    • Possibilité de production automatique de résumés de normes
    • Règles d'exclusion introduites au processus de production
    • Intérêt pour le logiciel Lingway KM
  • Pour l'ATILF :
    • Progression dans l'exploitation de ressources textuelles
    • Ouverture et maintenance d'une base Frantext-Afnor de corpus de langue technique issue des normes AFNOR
    • Enrichissement de la base morphosyntaxique MORPHALOU
    • Définition de nouveaux outils
    • Possibilité d'étude du lexique technique des normes dans le cadre du programme de veille lexicale
  • Pour LINGWAY :
    • Démonstration de la faisabilité technique des applications autour des normes: extraction
    • semi-automatique de terminologie bilingue, recherche sémantique mono et multilingue et production automatique de résumés
    • Amélioration de Lingway KM
  • Pour la Communauté scientifique :
    • Accès libre sur les sites Normalangue, AFNOR et ATILF à la présentation du projet et de ses résultats
    • Accès libre sur les sites Normalangue et AFNOR à l'ensemble de la terminologie bilingue extraite des 1000 normes traitées dans le cadre du projet : 12 000 paires bilingues classées par ordre alphabétique
    • Accès libre sur le site de l'Atilf à l'ensemble du fonds normatif traité dans le cadre du projet que ce soit pour des études purement linguistiques sur la structure du langage technique support de rédaction des normes ou pour des études en Traitement Automatique du langage technique.


Etat d'avancement

1. Résultats obtenus à ce jour
Le projet est maintenant terminé. Les résultats obtenus correspondent aux attentes et peuvent se résumer comme suit :
  • production d'un corpus XMLisé de la langue technique normalisée sur un échantillon de 1 000 normes en français et en anglais et une méthodologie de balisage permettant d'envisager l'extension ultérieure du projet à d'autres normes existantes et permettant d'ores et déjà aux chercheurs d'étudier un corpus technique de référence.
  • extraction semi-automatique de 12 000 termes bilingues français-anglais alignés permettant d'enrichir des dictionnaires techniques avec 2 200 entrées du langage normalisé, et environ 4 000 phrases alignées permettant également d'aider à la traductio