Centre Européen de Traduction et de Reconnaissance Automatique des Langages
La communauté européenne est une mosaïque de peuples. Les diverses langues qui révèlent leurs identités
constituent à la la fois une richesse et un frein à la communication.
Plutôt que de tenter d'imposer l'uniformité à des peuples qui ne le souhaitent pas, il existe une autre
solution, utilisant les techniques de l'informatique.
Le but est de mettre à la disposition de tous les citoyens de la Communauté Européenne, des dictionnaires
de définitions et de traductions, des correcteurs orthographiques et grammaticaux librement accessibles et
téléchargeables sur internet.
Le but ultime, dans 10 ou 20 ans est de disposer de traducteurs vocaux de poche.
A l'heure actuelle, quasiment tous les dictionnaires sont issus d'initiatives commerciales et leur usage
n'est pas libre. La reconnaissance de la parole a été l'objet d'études et de réalisations telles que Via-Voice d'IBM.
Des études linguistiques faites par de nombreux littéraires sont rangées dans les rayonnages des bibliothèques
et ne sont pas disponibles pour le plus grand nombre. Aucun dictionnaire de définition n'est librement utilisable.
Il faudrait plus de 500 dictionnaires de traduction pour convertir toutes les langues européennes des unes vers
les autres. Il n'existe actuellement aucune stratégie d'envergure pour améliorer la situation.
Les seules initiatives sont privées, ciblées sur les langues les plus rentables pour des raisons commerciales
évidentes. Ceci ne favorise ni la coopération entre les acteurs ni l'interopérabilité des produits. Chaque
réalisation nouvelle doit tout réinventer, ce qui augmente les coûts de développement et favorise l'émergence de monopoles.
L'objectif du CETRAL est de fournir un référentiel public des langages européens. Il pourrait inclure toutes
les langues indo-européennes plus le basque, le finnois et le magyar. Son extension à d'autres langues non
européennes ne serait pas une priorité afin de de ne pas faire exploser la difficulté de réalisation.
L'utilisation d'un langage pivot, totalement neutre et virtuel permettrait de n'établir qu'un dictionnaire
de traduction par langue.
Malgré la difficulté de ce projet, il reste ainsi réaliste. Des travaux assez concluants sur les langages
pivots ont déjà été réalisés depuis quelques dizaines d'années.
Il s'agit d'un projet de grande ampleur, qui ne sera jamais totalement achevé, car les langues évoluent
continuellement. Alors pourquoi se lancer dans une telle entreprise ? Tout simplement pour être utile, étape
par étape. Chacune d'elle doit apporter un service pleinement utilisable. L'enseignement en serait
l'un des premiers bénéficiaires.
Le but ultime est de disposer de traducteurs vocaux autonomes. On peut imaginer des boitiers de la taille
d'un téléphone portable qui traduiront le message parlé vers le langage pivot puis vers le langage de
l'interlocuteur. La reformulation dans la langue d'origine permet la vérification de la fiabilité de la
traduction. On peut imaginer que dans 10 ou 15 ans, les téléphones portables inclueront cette fonction autonome.
On pourra, selon ses déplacements, charger le traducteur dans la langue de son choix.
La réalisation de ces traducteurs portatifs, comme toute réalisation commerciale n'est pas du ressort du CETRAL.
Le but est seulement de mettre à la disposition de chacun les dictionnaires et les logiciels de traitement
du langage. Tout ceci doit obligatoirement être indépendant des types de matériels permettant de les faire
fonctionner. Seuls les logiciels libres le permettent.
Une fois l'objectif atteint vers 2010, le projet passera dans une phase de maintien en condition opérationnelle.
La reconnaissance d'un langage parlé comprend de nombreuses étapes :
Les levers de doute doivent s'appuyer sur des dictionnaires. C'est donc par eux qu'il convient de commencer. Ils permettent aussi de réaliser des correcteurs orthographiques et des outils de traduction élémentaires.
La coopération d'informaticiens et de littéraires est indispensable. Les uns réalisant le contenant et les autres
le contenu des dictionnaires. L'analyse et la mise en forme des structures grammaticales devra faire l'objet
de coopérations encore plus étroites.
Grâce à Internet, les universités de tous les pays peuvent collaborer. Un site de référence servira à fédérer
tous les travaux. Une conférence annuelle sur le modèle de "Libre Software Meeting" permettra à tous les acteurs
de se rencontrer périodiquement.
Les dictionnaires de définition et dictionnaires de traduction vers la langue pivot sont à la base de tous les développements. Définir une structure de bases de données capables de recevoir les données est une première priorité. Les serveurs de dictionnaires selon la RFC 2229 ou une nouvelle norme à définir sont une deuxième étape. L'usage de ces dictionnaires doit être libre pour tous. Toutefois, leur inclusion dans des logiciels commerciaux pourra éventuellement être soumise à une contribution financière.
La mise en forme des règles de grammaire permet le lever de doute dans la reconnaissance et les correcteurs grammaticaux.
La reconnaissance vocale comprend les étapes suivantes :
On est alors ramené au cas de la traduction d'un texte informatique. La reconnaissance de type multilocuteur est un travail très complexe.
Moins difficile à réaliser que la reconnaissance, la synthèse vocale est le dernier maillon de la chaîne. Elle est nécessaire à la réalisation de matériels trop petits pour être munis d'écrans ainsi qu'aux mal-voyants.
La reconnaissance des textes manuscrits serait une option très intéressante. Elle permet une large diffusion
de textes qui, sans cela restent très confidentiels.
Les logiciels d'OCR (Optical Character Recognization) libres existent mais sont peu développés. Les logiciels
propriétaires les plus aboutis ne fonctionnent que dans des environnements très restreints et n'ont à priori
aucune garantie de pérennité.
Certaines étapes peuvent être menées en parallèle. Toutefois, la priorité doit être donnée à la réalisation
des dictionnaires sur lesquels s'appuient les autres travaux. Des correcteurs libres, orthographiques puis
grammaticaux pourront ensuite voir le jour.
On peut estimer que les premiers travaux seront utilisables au bout de un à deux ans.
Les initiatives doivent venir des futurs acteurs. Une planification centralisée et excessive serait nuisible
à la conduite du projet. Par exemple, un modèle de grammaire utilisé pour plusieurs langues ne pourra pas être
utilisé pour certaines autres. Ce qui doit être standardisé et normé, ce sont les interfaces entre les
différents modules afin que les modifications de l'un n'entrainent pas des changement en cascade sur les autres.
C'est pourquoi il est préférable de coordonner plus que de diriger.
L'essentiel de la coordination technique est de définir les interfaces à tous niveaux. Ce travail de
standardisation et de normalisation permet par exemple de changer instantanément la langue d'un correcteur
orthographique. C'est absolument nécessaire pour obtenir l'interopérabilité des produits.
De nombreux éditeurs vivent des ventes de dictionnaires qu'ils maintiennent à jour. Il est évident que
la vente des dictionnaires et de certaines catégories de livres va décroitre au fil des ans.
Le CETRAL doit être un fédérateur et non un concurrent. Les éditeurs pourront y puiser et y contribuer.
Les traducteurs de poche vont devenir de plus en plus performants et les opérateurs téléphoniques se penchent
déjà sur le problème. Ce domaine va développer de nouveaux métiers. C'est la loi de l'évolution.
Le CETRAL est un projet dont le but est de briser les barrières linguistiques entre les européens. Il peut
motiver des milliers de chercheurs européens autour d'un projet commun.
Il nécessite de faire collaborer des scientifiques et des littéraires, ce qui serait assez novateur.
La communication entre les peuples est l'un des premiers facteurs de paix et par conséquent de développement.
Espérons que ce projet puisse y contribuer.
Ces marques sont le label Qualité d'internet. Exigez-les. Elles ne sont présentes que sur les sites conformes aux
spécifications du W3C; elles sont un gage d'interopérabilité, d'accessibilité, de performances, de
pérennité et d'économies.
Pour en savoir plus :
Pourquoi le W3C ? --
Interopérabilité et accessibilité --
Démarche --
Introduction
Pierre Jarillon, le 14/10/2001 - revu en août 2003