EUROLANG / CETRAL

Centre Européen de Traduction et de Reconnaissance Automatique des Langages

La communauté européenne est une mosaïque de peuples. Les diverses langues qui révèlent leurs identités constituent à la la fois une richesse et un frein à la communication.

Plutôt que de tenter d'imposer l'uniformité à des peuples qui ne le souhaitent pas, il existe une autre solution, utilisant les techniques de l'informatique. Le but est de mettre à la disposition de tous les citoyens de la Communauté Européenne, des dictionnaires de définitions et de traductions, des correcteurs orthographiques et grammaticaux librement accessibles et téléchargeables sur internet. Le but ultime, dans 10 ou 20 ans est de disposer de traducteurs vocaux de poche.

La situation en 2001

A l'heure actuelle, quasiment tous les dictionnaires sont issus d'initiatives commerciales et leur usage n'est pas libre. La reconnaissance de la parole a été l'objet d'études et de réalisations telles que Via-Voice d'IBM. Des études linguistiques faites par de nombreux littéraires sont rangées dans les rayonnages des bibliothèques et ne sont pas disponibles pour le plus grand nombre. Aucun dictionnaire de définition n'est librement utilisable. Il faudrait plus de 500 dictionnaires de traduction pour convertir toutes les langues européennes des unes vers les autres. Il n'existe actuellement aucune stratégie d'envergure pour améliorer la situation.
Les seules initiatives sont privées, ciblées sur les langues les plus rentables pour des raisons commerciales évidentes. Ceci ne favorise ni la coopération entre les acteurs ni l'interopérabilité des produits. Chaque réalisation nouvelle doit tout réinventer, ce qui augmente les coûts de développement et favorise l'émergence de monopoles.

Objectif

L'objectif du CETRAL est de fournir un référentiel public des langages européens. Il pourrait inclure toutes les langues indo-européennes plus le basque, le finnois et le magyar. Son extension à d'autres langues non européennes ne serait pas une priorité afin de de ne pas faire exploser la difficulté de réalisation.
L'utilisation d'un langage pivot, totalement neutre et virtuel permettrait de n'établir qu'un dictionnaire de traduction par langue.
Malgré la difficulté de ce projet, il reste ainsi réaliste. Des travaux assez concluants sur les langages pivots ont déjà été réalisés depuis quelques dizaines d'années.
Il s'agit d'un projet de grande ampleur, qui ne sera jamais totalement achevé, car les langues évoluent continuellement. Alors pourquoi se lancer dans une telle entreprise ? Tout simplement pour être utile, étape par étape. Chacune d'elle doit apporter un service pleinement utilisable. L'enseignement en serait l'un des premiers bénéficiaires.
Le but ultime est de disposer de traducteurs vocaux autonomes. On peut imaginer des boitiers de la taille d'un téléphone portable qui traduiront le message parlé vers le langage pivot puis vers le langage de l'interlocuteur. La reformulation dans la langue d'origine permet la vérification de la fiabilité de la traduction. On peut imaginer que dans 10 ou 15 ans, les téléphones portables inclueront cette fonction autonome. On pourra, selon ses déplacements, charger le traducteur dans la langue de son choix.
La réalisation de ces traducteurs portatifs, comme toute réalisation commerciale n'est pas du ressort du CETRAL. Le but est seulement de mettre à la disposition de chacun les dictionnaires et les logiciels de traitement du langage. Tout ceci doit obligatoirement être indépendant des types de matériels permettant de les faire fonctionner. Seuls les logiciels libres le permettent.
Une fois l'objectif atteint vers 2010, le projet passera dans une phase de maintien en condition opérationnelle.

Techniques à développer

La reconnaissance d'un langage parlé comprend de nombreuses étapes :

Les levers de doute doivent s'appuyer sur des dictionnaires. C'est donc par eux qu'il convient de commencer. Ils permettent aussi de réaliser des correcteurs orthographiques et des outils de traduction élémentaires.

Les acteurs

La coopération d'informaticiens et de littéraires est indispensable. Les uns réalisant le contenant et les autres le contenu des dictionnaires. L'analyse et la mise en forme des structures grammaticales devra faire l'objet de coopérations encore plus étroites.
Grâce à Internet, les universités de tous les pays peuvent collaborer. Un site de référence servira à fédérer tous les travaux. Une conférence annuelle sur le modèle de "Libre Software Meeting" permettra à tous les acteurs de se rencontrer périodiquement.

Les étapes

Dictionnaires

Les dictionnaires de définition et dictionnaires de traduction vers la langue pivot sont à la base de tous les développements. Définir une structure de bases de données capables de recevoir les données est une première priorité. Les serveurs de dictionnaires selon la RFC 2229 ou une nouvelle norme à définir sont une deuxième étape. L'usage de ces dictionnaires doit être libre pour tous. Toutefois, leur inclusion dans des logiciels commerciaux pourra éventuellement être soumise à une contribution financière.

Grammaires

La mise en forme des règles de grammaire permet le lever de doute dans la reconnaissance et les correcteurs grammaticaux.

Reconnaissance vocale

La reconnaissance vocale comprend les étapes suivantes :

  1. Analyse spectrale
  2. Reconnaissance des phonèmes
  3. Comparaison et lever de doute lexical
  4. Lever de doute grammatical
  5. Lever de doute sémantique

On est alors ramené au cas de la traduction d'un texte informatique. La reconnaissance de type multilocuteur est un travail très complexe.

Synthèse vocale

Moins difficile à réaliser que la reconnaissance, la synthèse vocale est le dernier maillon de la chaîne. Elle est nécessaire à la réalisation de matériels trop petits pour être munis d'écrans ainsi qu'aux mal-voyants.

Reconnaissance des textes imprimés et manuscrits

La reconnaissance des textes manuscrits serait une option très intéressante. Elle permet une large diffusion de textes qui, sans cela restent très confidentiels.
Les logiciels d'OCR (Optical Character Recognization) libres existent mais sont peu développés. Les logiciels propriétaires les plus aboutis ne fonctionnent que dans des environnements très restreints et n'ont à priori aucune garantie de pérennité.

Conduite du projet

Certaines étapes peuvent être menées en parallèle. Toutefois, la priorité doit être donnée à la réalisation des dictionnaires sur lesquels s'appuient les autres travaux. Des correcteurs libres, orthographiques puis grammaticaux pourront ensuite voir le jour.
On peut estimer que les premiers travaux seront utilisables au bout de un à deux ans.
Les initiatives doivent venir des futurs acteurs. Une planification centralisée et excessive serait nuisible à la conduite du projet. Par exemple, un modèle de grammaire utilisé pour plusieurs langues ne pourra pas être utilisé pour certaines autres. Ce qui doit être standardisé et normé, ce sont les interfaces entre les différents modules afin que les modifications de l'un n'entrainent pas des changement en cascade sur les autres. C'est pourquoi il est préférable de coordonner plus que de diriger.
L'essentiel de la coordination technique est de définir les interfaces à tous niveaux. Ce travail de standardisation et de normalisation permet par exemple de changer instantanément la langue d'un correcteur orthographique. C'est absolument nécessaire pour obtenir l'interopérabilité des produits.

Aspect commercial et industriel

De nombreux éditeurs vivent des ventes de dictionnaires qu'ils maintiennent à jour. Il est évident que la vente des dictionnaires et de certaines catégories de livres va décroitre au fil des ans.
Le CETRAL doit être un fédérateur et non un concurrent. Les éditeurs pourront y puiser et y contribuer.
Les traducteurs de poche vont devenir de plus en plus performants et les opérateurs téléphoniques se penchent déjà sur le problème. Ce domaine va développer de nouveaux métiers. C'est la loi de l'évolution.

Conclusion

Le CETRAL est un projet dont le but est de briser les barrières linguistiques entre les européens. Il peut motiver des milliers de chercheurs européens autour d'un projet commun.
Il nécessite de faire collaborer des scientifiques et des littéraires, ce qui serait assez novateur.
La communication entre les peuples est l'un des premiers facteurs de paix et par conséquent de développement. Espérons que ce projet puisse y contribuer.

Valid XHTML 1.0 Strict Valid CSS! Ces marques sont le label Qualité d'internet. Exigez-les. Elles ne sont présentes que sur les sites conformes aux spécifications du W3C; elles sont un gage d'interopérabilité, d'accessibilité, de performances, de pérennité et d'économies.
Pour en savoir plus : Pourquoi le W3C ? -- Interopérabilité et accessibilité -- Démarche -- Introduction

Pierre Jarillon, le 14/10/2001 - revu en août 2003