00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  ATONANT
vendredi 8 avril 2005


Enrichissement semi-automatique d'ontologies

Fiche du 8 avril 2005



Thème de l'action
Ressources linguistiques et logicielles
Début du projet
1er septembre 2003
Durée du projet
27 mois
 
Résumé
Les entreprises cherchent à maintenir leur avance technique et leurs capacités d'innovation par une activité de veille d'une part, de gestion des connaissances au travers de la mémoire d'entreprise et des savoirs-faires internes d'autre part. Avec la mise sous forme électronique de la documentation interne et l'accès immédiat et continu, via Internet, à de nouveaux documents externes, elles doivent mieux gérer la masse d'information pour les mettre à disposition de manière intelligente auprès des utilisateurs. Dans ce cadre, des connaissances structurées sur le domaine de spécialité de l'entreprise sont indispensables : organisées en ontologies avec une composante terminologique, elles permettent de guider efficacement la sélection de documents, leur indexation et annotation en fonction du contenu, leur classification en fonction des profils et besoins des utilisateurs. Le projet ATONANT rassemble des chercheurs informaticiens (ingénierie des connaissances, traitement automatique des langues et intelligence artificielle) et linguistes (spécialisés dans la linguistique de corpus), ainsi que des utilisateurs de centres hospitaliers et de grands groupes. Les applications cibles sont des outils d'analyse, d'indexation, de recherche et à terme de traduction de textes techniques ou scientifiques. Les domaines d'activité typiques sont la veille économique & technologique sur le Web, la mémoire d'entreprise ou d'organisme de recherche, la gestion électronique d'information médicale, la détection d'activités illégales et de manière plus générale, la gestion électronique de documents techniques ou scientifiques.

Objectifs
L'objectif du projet ATONANT est de prototyper des outils d'aide à l'enrichissement semi-automatique d'ontologies, qui pourraient être à terme, intégrer au sein d'une plate-forme modulaire un ensemble de systèmes d'extraction et de fouille de textes associé à des fonction d'exploration de ces données lexicales puis de modélisation et de structuration conceptuelle. Les outils produisent des données sous des formes standardisées et facilement exportables dans différents systèmes d'information. Les outils prototypés sont les suivants :
  • Un outil de collecte et de formatage de données,
  • Un outil d'aide à la recherche d'information sur le Web,
  • Un éditeur d'ontologie terminologique,
  • Un outil de production de hiérarchie de termes,
  • Un outil de création de hiérarchie spécialisation/généralisation.

Mise en œuvre et état de l'art
Le projet s'appuie sur un certain nombre de travaux, outils et méthodes existants qui ont été réalisés par les partenaires du projet. Les partenaires du projet bénéficient à la fois d'une bonne maîtrise des travaux théoriques des domaines des ontologies et de la modélisation de la connaissance, et de plusieurs expériences acquises au cours de projets avec des entreprises qui ont permis d'utiliser ces logiciels pour construire des ressources ontologiques à échelle réelle.
  • TERMINAE, un environnement de construction d'ontologie (LIPN)
  • Un système de structuration du lexique guidé par la détermination automatique du contexte thématique réalisé dans le cadre d'une thèse soutenue au LIMSI (CEA)
  • Des outils et une plate-forme d'intégration (analyse morpho-systaxique multi-lingue, extraction d'entités nommées, indexation de documents sur de grands corpus, interface utilisateur de paramétrage, gestion des droits) mis en oeuvre dans le cadre de système opérationnels (filtrage, surveillance, veille technologique, protection de la propriété industrielle) (CEA)
  • La méthode OntoSpec qui consiste à introduire une ontologie conceptuelle spécifiée dans une langue naturelle contrôlée et fortement structurée (LARIA)
  • Des méthodes d'apprentissage basées sur les réseaux de neurones et les réseaux bayésiens (INSA et LIP6)
Les travaux en cours concernent la mise au point des outils cités à la section Objectifs.
Organisation
L'échéancier et les fournitures du projet sont indiqués dans le tableau ci-dessous :

Intitulé de la fourniture Echéance Responsable
F1.1.1 - Plan de management & qualité 30/09/04 EADS
F2.1.1 - Rapport d'expression du besoin 30/06/04 PSI
F2.2.1 - Corpus & ressources ontologiques V1 30/06/04 PSI
F2.2.2 - Corpus & ressources ontologiques V2 31/10/04 LaRIA
F2.3.1 - Rapport d'expérimentation 30/11/05 PSI
F3.1.1 Description de la méthodologie de travail 31/10/04 INSA
F3.2.1 - Plate-forme ontologique V1 31/10/04 LIPN
F3.2.2 - Plate-forme ontologique V2 30/06/05 LaRIA
F3.3.1 - Spécifications du module d'enrichissement ontologique 31/07/05 INSA
F4.1.1 - Outil de collecte et de normalisation documentaire 30/06/04 EADS
F4.1.2 - Outil d'aide à la recherche d'information sur le Web 31/12/04 INSA
F4.2.1 - Outil de production de hiérarchie de termes 31/07/05 CEA
F4.2.2 - Outil de création de hiérarchie spécialisation/généralisation 31/07/05 LIP6
F4.3.1 - Rapport d'évaluation 31/10/05 LIP6

Le planning du projet est disponible en ligne.

Retombées du projet
Ce projet vise à produire l'ébauche d'une plate-forme logicielle multi-composant, allant de la veille ciblée à l'analyse de contenu guidée par une ontologique métier évolutive. A l'issue du projet, le prototype démontrera l'intérêt des technologies appliquées. Les différents composants qui constitueront