00000001.jpg

CHERCHER

Accueil Actualités Dépêches Coup de projecteur Manifestations Contact

Technologies de la Langue

Imprimer cet article

  Correction orthographique
mardi 10 octobre 2006


Corriger les fautes d’orthographes avec un ordinateur est une idée presque aussi ancienne que l’informatique elle-même puisque les premières techniques de correction ont fait l’objet de publications au début des années 60. Corriger les fautes suppose d’abord de les détecter, la machine peut ensuite proposer des corrections.

La correction orthographique se limitant aux erreurs conduisant à des formes (« mots ») non attestées dans la langue, détecter les fautes requiert seulement de vérifier pour chaque forme d’un texte si elle est ou non présente dans un dictionnaire (ou lexique) de référence. La qualité d’un détecteur repose bien sûr sur la qualité de son dictionnaire (notamment pour les noms propres, sigles, ...) mais aussi sur la qualité de la segmentation, c’est-à-dire du découpage du texte en formes : il s’agit d’éviter de compter des fautes où il n’y en a pas comme par exemple pour les chiffres (12, IX, iv), dates (12/03/05, XVe siècle), sigles (SNCF ou S.N.C.F), mots composés, élisions (quat’ vents, j’veux, ...), etc. Bien entendu le détecteur doit aussi être adapté au format interne du texte (gras, souligné, mise en forme des paragraphes, tableaux, ...), format qui est propre à chaque logiciel de traitement de texte.

Proposer des corrections est un tâche plus difficile. L’idée qui sous-tend les principales techniques consiste à associer à la forme incorrecte, grâce à un algorithme tolérant aux fautes, un ensemble de graphies (formes compatibles, correctes ou non) qui est ensuite filtré grâce à des heuristiques plus ou moins discriminantes, pour ne retenir que quelques formes qui constituent les hypothèses de correction proposées au rédacteur.

Aucune technique n’est idéale en ce domaine, et la combinaison de plusieurs techniques améliore les résultats.

Ainsi certaines fautes qui éloignent peu la forme fautive de la forme correcte (aréoport ou infractus par exemple) autorisent des techniques simples basées sur des combinaisons de lettres, tandis que d’autres requièrent des algorithmes plus sophistiqués basés sur la phonétique (ortografe, ocurance) ou sur la morphologie (bails, disez). Tout l’art en la matière est de ne pas utiliser un algorithme trop tolérant (qui produirait trop d’hypothèses, trop éloignées de la forme fautive) ni un algorithme trop discriminant (qui ignorerait la bonne correction).

Les progrès techniques (puissance de calcul autorisant la détection à la volée, capacité de stockage permettant de gros dictionnaires, y compris avec des noms propres) ainsi que les progrès des algorithmes de déctection font des correcteurs actuels des outils précieux pour les rédacteurs, souvent trop pressés pour soigner la relecture.

Damien Genthial