
Langues minoritaires : le grand défi
Le système d’IA neuronale, le nouvel outil de traduction automatique, est le futur des langues peu diffusées.
Nous vivons sur une planète qui approche rapidement des 8 milliards d’habitants. Parmi eux, quelques milliards parlent des langues parmi les plus utilisées et les plus reconnues dans le monde. Il s’agit, concrètement, de l’anglais (1,13 milliard de locuteurs), du chinois mandarin (1,10 milliard), de l’hindi (615 millions) et de l’espagnol (535 millions). S’en suivent d’autres langues telles que le français, l’arabe, le bengali, le russe et le portugais. Des 7 000 langues qui existent dans le monde, dont 4 000 écrites, 23 couvrent plus de la moitié de la population mondiale. Dans l’objectif de faciliter la communication dans plusieurs langues, l’évolution des technologies a permis de développer des systèmes automatiques de traduction instantanée, qui s’améliorent petit à petit. Il reste encore un long chemin à parcourir, mais à l’échelle des utilisateurs, il est maintenant facile d’accéder à des traductions basiques qui permettent de comprendre la signification générale des termes et des phrases dans d’autres langues. Cependant, de telles traductions manquent en général de précision.
Il est compliqué d’accéder à des traductions automatiques de langues minoritaires. Pour y parvenir, il est indispensable de faire appel au travail de professionnels humains.
Si les langues les plus répandues ont toujours une marge de progression importante dans le domaine de la traduction automatique, il est facile d’imaginer la difficulté d’accéder à des traductions de langues minoritaires. Actuellement, Google Translate prend en charge environ 108 langues et ce chiffre est en augmentation. Cependant, il reste une grande quantité de langues d’usage minoritaire qui ne sont pas accessibles par le biais de la technologie et dont la diffusion et la traduction sont possibles seulement grâce à l’action humaine.
Les systèmes d’IA neuronaux sont capables d’apprendre, d’interpréter et de traduire le sens des langues minoritaires. Les résultats obtenus par le biais de ces technologies sont très prometteurs.
Cependant, les premières fondations ont déjà été posées pour la construction de systèmes capables d’apprendre, d’interpréter et de traduire le sens des langues peu diffusées. La technologie qui permet de mener à bien cette tâche se base sur l’intelligence artificielle et sur des systèmes de type neural networking. L’idée est que, alors qu’il faut des années pour qu’une personne approfondisse ses connaissances d’une nouvelle langue avec toutes ses spécificités, un système d’IA neuronal « apprend », grâce à des milliers de paramètres, les structures employées par chaque langue. En utilisant des processus de pré-entraînement, le système « capture » des mots publiés sur le Web dans ces langues et commence à tester des modèles de combinaisons et de structures, en attribuant des significations selon d’autres données contextuelles. Les modèles neuronaux peuvent apprendre à traduire entre deux langages individuelles sans avoir recours à des traductions bilingues, mais en traduisant à partir d’une autre langue majoritaire de référence. Les résultats sont très prometteurs et ont mis en évidence l’importance de publier des contenus en langues minoritaires sur Internet. De tels contenus sont la matière première, l’« aliment » pour ces nouveaux outils expérimentaux qui ne tarderont pas à révolutionner le monde des langues minoritaires.