A propos de la traduction automatique

Qu'est-ce que la traduction automatique?

La traduction automatique (la TA) est une traduction automatisée. C'est le processus par lequel le logiciel est utilisé pour traduire un texte d'une langue naturelle (comme l'anglais) à une autre (comme l'espagnol).

Pour traiter n'importe quelle traduction, humaine ou automatique, la signification d'un texte dans la langue originale (source) doit être entièrement reconstituée dans la langue cible, c-à-d. la traduction. Ce processus apparemment simple est en réalité complexe. La traduction ne se limite pas à une simple substitution mot à mot. Le traducteur doit analyser et interpréter le texte et comprendre les relations entre les mots qui peuvent influencer son sens. Ceci requiert une connaissance de la grammaire, de la syntaxe (structure de la phrase) et de la sémantique (sens des mots) à la fois dans la langue source et dans la langue cible.

La traduction par l'homme et par la machine ont chacune leur part de challenge. Par exemple, deux traducteurs différents ne peuvent produire des traductions identiques du même texte dans une même paire de langues, et cela peut prendre plusieurs étapes de révision pour obtenir la satisfaction du client. Le défi de la traduction Automatique est de produire des traductions comparables à des traductions humaines.

Traduction Automatique à base de règles (« Rule-based » MT)

Les logiciels de Traduction Automatique à base de règles reposent sur l'utilisation de nombreuses règles linguistiques et de millions d'entrées de dictionnaires pour chaque paire de langue.

Le logiciel parcourt le texte à traduire et crée une représentation intermédiaire à partir de laquelle la traduction est générée. Ce processus nécessite l'utilisation de dictionnaires volumineux, de données syntaxiques, morphologiques et sémantiques, et de nombreuses règles linguistiques. Le logiciel utilise ces règles pour transférer la structure grammaticale du texte source dans le texte cible (traduction).

Les traductions sont construites à partir de dictionnaires gigantesques et de règles linguistiques sophistiquées. Les utilisateurs peuvent améliorer la qualité de traduction en intégrant leur propre terminologie qui sera prise en compte au cours du processus de traduction. L'utilisation de ces dictionnaires utilisateurs prime sur les paramètres de base du logiciel.

Dans la plupart des cas, ce processus de personnalisation se fait en deux étapes: un investissement initial qui améliore sensiblement la qualité de traduction, puis des investissements continus pour améliorer la qualité de manière incrémentale. Tandis que la TA basée sur les règles amène des sociétés au seuil de qualité et au-delà, le processus d'amélioration de la qualité peut être long et cher.

Traduction automatique statistique (SMT)

Les logiciels de Traduction Automatique statistique traduisent en utilisant des « modèles statistiques » auto construits à partir de corpus monolingues et bilingues. Construire des modèles statistiques est un processus rapide, mais la technologie se base quasi exclusivement sur les corpus multilingues existants. L'entrainement d'un modèle bilingue nécessite au minimum 2 millions de mots pour un domaine spécifique et bien plus pour le domaine général. Il est en théorie possible d'atteindre le seuil de qualité attendu pour les entreprises mais, dans les faits, il est rare que les entreprises disposent de tels volumes de documents traduits. En outre, les logiciels de Traduction Automatique statistique nécessitent des configurations matérielles lourdes pour traduire avec des performances normales.

La TA basée sur les règles contre la TA statistique

La TA basée sur les règles fournit la bonne qualité hors domaine et est prévisible par nature. La personnalisation par ajout de dictionnaires utilisateurs améliore significativement la qualité de traduction tout en garantissant le respect de la langue de l'entreprise. Mais les résultats de traduction peuvent manque de la fluidité que les lecteurs attendent. En termes d'investissement, le cycle de personnalisation requis pour atteindre le seuil de qualité peut être long et coûteux. Les performances sont élevées même sur du matériel standard.

Les logiciels de Traduction Automatique statistique traduisent avec une qualité satisfaisante lorsque des corpus suffisamment volumineux et pertinents sont disponibles. La traduction est « fluide », c'est-à-dire qu'elle est facile à lire et répond par conséquent aux attentes du lecteur. Cependant, la traduction n'est ni prévisible ni cohérente. La formation de bons corpus est automatisée et meilleur marché. Mais la formation sur des corpus de langue générale, texte de signification autre que le domaine spécifique, est pauvre. Les logiciels de Traduction Automatique statistique requièrent en outre des configurations matérielles lourdes pour s'entraîner et traduire.

Rule-Based MTStatistical MT
Traductions prévisibles et homogènes- Traductions imprévisibles et hétérogènes
+ Bonne qualité des traductions généralistes- Qualité faible sur les domaines généralistes
+ Connaissance des règles grammaticales- Pas de connaissance de la grammaire
+ Performance et robustesse- Besoin en CPU et espace disque importants
+ Cohérence entre les versions- Pas de cohérence entre les versions
- Manque de fluidité+ Traductions fluides
- Difficulté à gérer les exceptions+ Reconnaît bien les exceptions
- Coût de développement et de personalisation élevés+ Développement rapide et peu onéreux si des corpus de qualité sont disponibles

Compte-tenu des avantages et inconvénients de chaque technologie et des attentes des clients, il existe clairement une voie pour une troisième approche permettant d'atteindre une meilleure qualité, avec un investissement réduit et des performances élevées.