Meta a récemment annoncé un nouveau partenariat technologique linguistique avec l’UNESCO, visant à collecter des enregistrements vocaux et des transcriptions dans de nombreuses langues pour alimenter le développement futur d’une intelligence artificielle (IA) ouverte et accessible. Ce programme se concentre particulièrement sur les langues minoritaires négligées dans l’environnement numérique.
Selon Meta, le projet vise à attirer des partenaires qui fourniront plus de 10 heures d’enregistrements vocaux et leurs transcriptions, un corpus important de textes écrits, ainsi qu’un ensemble de phrases traduites. Meta espère intégrer ces langues à ses modèles de reconnaissance vocale et de traduction IA grâce à la collaboration avec ses partenaires. Les résultats finaux seront publiés en open source.
Source : Image générée par IA, fournisseur de services d’autorisation d’images Midjourney
À ce jour, les partenaires confirmés incluent le gouvernement du Nunavut, dans le nord du Canada, où une partie de la population utilise une langue appelée inuktitut. Meta a déclaré sur son blog : « Nos efforts se concentrent particulièrement sur les langues sous-desservies, afin de soutenir le travail de l’UNESCO. Notre objectif ultime est de créer des systèmes intelligents capables de comprendre et de répondre aux besoins humains complexes, quelle que soit la langue ou la culture. »
Pour accompagner ce programme, Meta publiera également une référence de traduction automatique open source destinée à évaluer les performances des modèles de traduction linguistique. Conçue par des linguistes, cette référence prend en charge sept langues et est accessible et contributive via la plateforme de développement IA Hugging Face.
Meta considère ces deux initiatives comme des actions philanthropiques, mais l’entreprise bénéficiera également de l’amélioration de ses modèles de reconnaissance vocale et de traduction. Meta continue d’étendre le nombre de langues prises en charge par son assistant IA, Meta AI, et teste des fonctionnalités telles que la traduction vocale dans les Reels Instagram, permettant aux créateurs de doubler leurs vidéos et de synchroniser automatiquement les sous-titres.
Malgré les efforts louables de Meta dans le traitement du langage, l’entreprise a fait l’objet de critiques concernant le traitement des contenus non anglophones. Des rapports indiquent que Facebook n’a pas signalé près de 70 % des fausses informations sur le COVID-19 en italien et en espagnol, contre 29 % pour les contenus en anglais. De plus, des documents divulgués montrent que des contenus en arabe ont souvent été incorrectement signalés comme discours haineux. Meta affirme prendre des mesures pour améliorer ses techniques de traduction et de modération de contenu afin de relever ces défis.