No rápido desenvolvimento da inteligência artificial, uma equipe internacional de pesquisa está pavimentando o caminho para o desenvolvimento de modelos de linguagem de IA europeus. Eles lançaram o projeto MOSEL (Massive Open-source compliant Speech data for European Languages), criando um conjunto de dados de fala abrangente e de código aberto para as 24 línguas oficiais da União Europeia. Essa iniciativa visa impulsionar o desenvolvimento de modelos de linguagem de IA abertos na Europa, desafiando a situação atual dominada por conjuntos de dados em inglês e sistemas proprietários de grandes empresas de tecnologia.
O projeto MOSEL reúne dados de fala de 18 fontes diferentes, incluindo projetos conhecidos como CommonVoice, LibriSpeech e VoxPopuli. Este vasto banco de dados contém gravações de voz com transcrições e dados de áudio não rotulados, sendo particularmente valioso o acervo de 505.000 horas de dados com transcrições.
No entanto, a distribuição de dados entre as diferentes línguas é extremamente desigual. O inglês possui mais de 437.000 horas de dados rotulados, enquanto línguas como o maltês ou o irlandês têm apenas algumas horas de dados. Para melhorar a situação dos dados em línguas com recursos escassos, a equipe de pesquisa empregou um método inovador: utilizando o modelo de IA Whisper da OpenAI, eles transcreveram automaticamente mais 441.000 horas de dados de áudio não rotulados.
A equipe de pesquisa explica que, embora a transcrição automática não seja perfeita, ela fornece uma grande quantidade de material de treinamento para línguas que carecem de dados de transcrição manual. Esses textos transcritos gerados são publicados sob a licença Creative Commons CC-BY, permitindo o uso livre com atribuição de origem.
Os desafios da transcrição automática são particularmente evidentes no caso do maltês. O modelo Whisper apresenta uma taxa de erro de palavras superior a 80% no processamento do maltês, o que significa que, em média, quatro em cada cinco palavras são identificadas incorretamente. Isso destaca os enormes desafios que ainda existem no processamento automático de algumas línguas.
Apesar disso, a equipe de pesquisa acredita que essas transcrições automáticas podem servir como ponto de partida para melhorias futuras. Eles planejam coletar mais dados para línguas sub-representadas e melhorar continuamente o banco de dados MOSEL.
O conjunto de dados completo do projeto MOSEL está disponível gratuitamente no GitHub, com o objetivo de fornecer aos pesquisadores e desenvolvedores acesso fácil a dados de fala em línguas europeias. Essa iniciativa de compartilhamento aberto não apenas reflete o espírito de colaboração na comunidade científica, mas também injeta nova vitalidade no desenvolvimento de modelos de linguagem de IA europeus.
O significado do projeto MOSEL vai além dos próprios dados. Ele representa o esforço da Europa para buscar a autonomia tecnológica na área de IA, e espera-se que impulsione o desenvolvimento de modelos de linguagem de IA mais diversos e inclusivos. Ao fornecer dados abertos multilíngues, o MOSEL oferece um recurso valioso para a proteção e o desenvolvimento de línguas minoritárias na era da IA, contribuindo para reduzir os preconceitos e desigualdades na área de processamento de linguagem da IA.
Com a melhoria e expansão contínuas do banco de dados MOSEL, podemos esperar ver mais aplicativos e serviços de IA baseados em línguas europeias. Isso não apenas impulsionará o desenvolvimento da economia digital europeia, mas também contribuirá significativamente para a diversidade da tecnologia de linguagem de IA global.