Traduction automatique

10 octobre 2006

Technolangue.net

Un système de traduction automatique par ordinateur (TAO) permet de traduire un document original en langue source en un document traduite en langue cible.

On distingue plusieurs types de TAO :

La TAO du veilleur permet de traduire automatiquement et rapidement de grands volume de documents, la traduction est grossière, mais la qualité n’est pas essentielle car il s’agit de faire de l’acquisition d’informations. Les systèmes disponibles gratuitement sur le web sont de ce type.
La TAO du réviseur permet de produire des traductions dont la qualité est suffisante pour que l’utilisateur puisse post-éditer (réviser) le texe cible afin d’obtenir une traduction diffusable. Ce sont des systèmes "sur mesure" pour des utilisateurs et des typologies de documents donnés. Lorsque le domaine et le type des documents à traduire, la révision peut même être l’exception. C’est le cas, par exemple, pour le système METEO qui traduit des bulletins météorologiques au Canada.
La TAO du traducteur offre, à des traducteurs humains, un ensemble d’outils (dictionnaires bilingues, bases terminologiques, thesaurus de bitextes), accessibles depuis un traitement de texte, afin de les assister dans leurs tâches quotidiennes. Il s’agit ici de traduction humaine assistée par la machine.

Les différents traitement linguistiques mis en œuvre dans un système de TAO permettent de définir l’architecture linguicielle du système. Pour simplifier, on distingue en général trois étapes de traitement : l’analyse, le transfert et la génération. Ces étapes utilisent des grammaires de transformation (chaîne vers arbre, arbre vers arbre, arbre vers chaîne) et des dictionnaires monolingues ou bilingues.

L’analyse calcule une structure intermédiaire plus ou moins profonde (plus ou moins abstraite, sémantique) des énoncés en langue source.
Le transfert calcule une structure intermédiaire équivalente à un niveau d’abstraction proche de celui qui a été calculé en langue cible. Il s’agit, par exemple, de remplacer les mots de la langue source par les mots de la langue cible et de réorganiser la structure.
La génération calcule un texte en langue cible à partir de la représentation intermédiaire en langue cible.

Si l’étape d’analyse permet d’obtenir une représentation sémantique abstraite de l’énoncé à traduire, il n’y a pas d’étape de transfert, mais directement une étape de génération. On parle dans ce cas de tradcution par pivot. Inversement, si l’étape d’analyse est très réduite (recherche des formes du dictionnaire des mots du texte), l’étape de transfert fait tout le travail, et il n’y a pas de génération. On parle alors de traduction directe (ou de système de première génération). Dans les autres cas on parle de traduction par transfert (ou de système de seconde génération).

Il existe aussi des systèmes de traduction qui utilisent des approches fondées sur les données : les systèmes à mémoire de traduction et les systèmes statistiques. Le cœur d’un système à mémoire de traduction est une base de données dans laquelle chaque segment déjà traduit est représenté par sa représentation en langue source et sa représentation en langue cible. La représentation peut être plus ou moins complexe allant d’une simple chaîne de caractères à une représentation utilisant plusieurs niveaux de représentation linguistique. Traduire un nouveau segment S signifie chercher une combinaison de segments, ou sous-segments, de la base de données qui se rapproche le plus de S. Les traductions des segments ou sous-segments choisis sont combinées pour produire une traduction de S en langue cible.

Avec un système de traduction statistique, on considère la traduction comme un problème de décodage. Le modèle de base utilise deux sources de connaissances statistiques définies par des distributions de probabilités calculables séparément :

un modèle de traduction Pr(s|c) qui nécessite de définir une correspondance entre les mots de la phrase cible c et les mots de la phrase source s.
un modèle de langage de la langue cible Pr(c) qui définit la bonne formation d’une suite de mots en langue cible c.

L’étape de traduction proprement dite est une étape de décodage (de recherche) qui cherche à maximiser le produit Pr(c).Pr(s|c) pour l’ensemble des phrases cibles c connaissant la phrase source s.

Hervé Blanchon