SYSTRAN - Acquis Communautaire

Les Faits en Bref

SYSTRAN - Acquis Communautaire est un programme de recherche coopératif entre SYSTRAN et le Dr. Philipp Koehn de l'Université d'Edimbourg. Le but du projet est de créer la plus grande technologie de traduction automatique, consacrée à la traduction des documents juridiques de l'Union Européenne. Pour atteindre cet objectif, des moteurs de traduction hybrides ont été créés par SYSTRAN pour 56 paires de langues en utilisant l'l'acquis communautaire  un dictionnaire a été créé.

Ce projet démontre comment les moteurs hybrides SYSTRAN combinent des techniques statistiques et la connaissance linguistique pour atteindre la meilleure qualité de traduction.

Un prototype SYSTRAN - Acquis Communautaire a été développé, consacré à la traduction des textes juridiques de l'Union européenne.

Le prototype démontre des fonctionnalités innovantes comme :

  • La qualité de traduction des moteurs hybrides de SYSTRAN entrainés avec JRC-Aquis et DGT-TM
  • La mise en évidence d' « exact match » DGT-TM dans le texte traduit
  • Affichage du "fuzzy match" DGT – TM pour l'édition
  • Sélection des significations alternatives du dictionnaire d'acquis communautaire

Objectifs du projet

  • Création des moteurs de traduction pour 56 paires de langues de l'Union européenne, spécialisés sur les textes juridiques de l'Union européenne (Acquis Communautaire) ;
  • Atteignant la meilleure qualité de traduction pour l'Union européenne documente par chemin de fer des moteurs hybrides de SYSTRAN sur le corpus d'acquis communautaire ;
  • Démontrer l'avantage des moteurs hybrides, qui combinent des techniques statistiques et la connaissance linguistique ;
  • Développer une architecture robuste qui peut manipuler de larges volumes de traductions en utilisant des ressources matériel minimum ;
  • Au final, offrir un véritable outil de traduction en ligne que les citoyens européens peuvent utiliser pour traduire les documents de l'Union européenne dans leurs langues.

La dernière phase du projet :

  • Couvrir toutes les paires de langues restantes pour l'Union européenne ;
  • Augmenter le feedback des utilisateurs prototypiques pour renforcer la qualité de traduction par l'amélioration continue des moteurs de traduction.

Partenaires du Projet

SYSTRAN - Acquis Communautaire a été développé par SYSTRAN en coopération avec l'Université d'Edimbourg.

Résultats du Projet

Le prototype SYSTRAN - Acquis Communautaire peut être utilisé en ligne par les utilisateurs enregistrés. Veuillez lire la politique en matière de protection de la vie privée et les termes de service qui s'appliquent au prototype.

Remerciements

SYSTRAN - Acquis Communautaire a été développé en utilisant les moteurs hybrides de SYSTRAN, le corpus JRC Acquis et la mémoire de traduction du DGT.

A propos du Corpus Multilingue Acquis Communautaire

L'Acquis Communautaire (AC) représente l'intégralité de la législation européenne. Il comprend tous les traités, règlements et directives adoptés par l'Union européenne, ainsi que les décisions rendues par la Cour européenne de Justice. C'est une collection de textes parallèles dans les 22 langues suivantes : Bulgare, tchèque, danois, allemand, grec, anglais, espagnol, estonien, finnois, français, hongrois, italien, lituanien, letton, maltais, néerlandais, polonais, portugais, roumain, slovaque, slovène et suédois. Ce corpus est accessible en ligne et est le résultat de l'effort de la Commission européenne pour soutenir le multilinguisme. Ce corpus est mis à disposition par le Joint Research Center of the European Commission. Pour plus d’information sur le corpus Acquis Communautaire, visitez le site des technologies linguistiques du JRC.

A propos de JRC-Acquis

Comme mentionné sur le site Web d'activités de technologie de langue, « la libération de données par le CCR est en conformité avec l'effort général de la Commission européenne de soutenir le multilinguisme, la diversité de langue et la réutilisation d'information de la Commission ». Le groupe technologique de langue du Centre commun de recherche de la Commission européenne n'a pas reçu une liste bien fondée de documents qui appartiennent à l'acquis communautaire. Afin de compiler le corpus d'acquis communautaire ils ont sélectionné les documents qui étaient disponibles dans au moins dizaines des vingt langues EU-25 (les langues officielles de l'UE avant la Bulgarie et la Roumanie jointives en 2007) et qui ont en plus existé dans au moins trois des neuf langues qui sont devenues des langues officielles avec l'élargissement de l'UE en 2004 (c.-à-d. tchèque, estonien, hongrois, lithuanien, letton, maltais, polonais, slovaque et slovène). Le corpus d'acquis du CCR est donc une approximation de l'acquis communautaire. L'acquis du CCR ne doit pas être vu comme corpus juridique de référence. Au lieu de cela, le but de l'acquis du CCR est de fournir un corpus parallèle volumineux des documents pour des recherches (informatiques) de linguistique. Les données publiées par le CCR sont en conformité avec l'effort général de la Commission européenne de soutenir le multilinguisme, la diversité de langue et la réutilisation d'information de la Commission. Pour plus d’information sur le corpus JRC-Acquis Communautaire, visitez le site des technologies linguistiques du JRC.

Au sujet de la mémoire de traduction multilingue de DGT de l'acquis communautaire : DGT-TM

La mémoire de traduction multilingue de DGT pour l'acquis communautaire (le corps de la loi d'UE) est une collection de textes parallèles (des textes et leur traduction, également désignée sous le nom des Bi-textes) dans 22 langues. La mémoire de traduction de DGT est une extraction des phrases alignées qui peuvent être employées pour produire un corpus multilingue parallèle des documents législatifs (acquis communautaire) de l'Union européenne dans 22 langues d'UE. Les phrases alignées (« unités de traduction ») ont été données par la Direction générale pour la traduction de la Commission européenne par l'extraction à partir d'un de ses grands souvenirs de traduction partagés dans EURAMIS (système d'information multilingue avancé européen). Cette mémoire contient les la plupart, bien que pas tous les, documents de l'acquis communautaire, aussi bien que quelques autres documents qui ne sont pas une partie de l'acquis. Les données publiées par DGT sont en conformité avec l'effort général de la Commission européenne de soutenir le multilinguisme, la diversité de langue et la réutilisation d'information de la Commission. Pour plus d’information sur la DGT-TM, visitez le site des technologies linguistiques du JRC.

À propos de la technologie hybride SYSTRAN Enterprise 7

Lancée en juin 2009, la solution SYSTRAN Enterprise Server 7 est un serveur de traduction totalement intégré s'appuyant sur la puissance de la technologie hybride développée par SYSTRAN. Basé sur des techniques autodidactes, le serveur 7 de SYSTRAN Enterprise peut être formé sur les textes bilingues existants et validés pour réaliser des traductions publiables rentables de qualité. La technologie hybride associe la flexibilité des systèmes de traduction statistique et la fiabilité de l'approche à base de règles linguistiques. Pour plus d'informations sur la technologie de SYSTRAN, visitez svp http://www.systran.co.uk/systran/corporate-profile/translation-technology.

Au sujet du Dr. Philipp Koehn

Philipp Koehn est le leader scientifique du logiciel Moses, un système open source de traduction automatique statistique qui fait aujourd'hui référence dans ce domaine.