A empresa de tecnologia linguística Letônica Tilde lançou o TildeOpen LLM em 3 de setembro de 2025, um modelo de linguagem de grande porte (LLM) de código aberto, projetado para apoiar idiomas europeus, especialmente os idiomas de países e regiões menos representados. Essa iniciativa marca um importante passo adiante da União Europeia em termos de equidade linguística e soberania digital.

O TildeOpen LLM é um modelo de decodificador denso com 30 bilhões de parâmetros, que utiliza uma licença flexível CC-BY-4.0, capaz de suportar vários idiomas, desde o letão e lituano até o ucraniano e turco. O treinamento deste modelo foi realizado nos supercomputadores europeus LUMI (Finlândia) e JUPITER, utilizando 2 milhões de horas de GPU fornecidas pelo desafio de inteligência artificial de grande porte da Comissão Europeia.
No aspecto técnico, o TildeOpen LLM foi treinado usando o script GPT-NeoX inspirado pela EleutherAI, com 450.000 atualizações, usando aproximadamente 2 trilhões de tokens. O processo de treinamento inclui amostragem em três etapas: primeiro, distribuição uniforme entre idiomas, segundo, aumento da distribuição natural de idiomas com grandes volumes de dados e, por fim, varredura uniforme para garantir equilíbrio. Os hiperparâmetros do modelo incluem 60 camadas, dimensão de embeddings de 6144, 48 cabeças de atenção, janela de contexto de 8192 tokens, além de ativação SwiGLU, codificação de posição RoPE e normalização de camada RMSNorm.
Em termos de equidade linguística e soberania de dados, os modelos dominantes tradicionais costumam se concentrar em inglês e outros idiomas principais, resultando em má performance ao lidar com idiomas bálticos, eslavos e outros idiomas menores da Europa, frequentemente apresentando erros gramaticais e frases estranhas. O TildeOpen introduziu um "tokenizador justo", que representa textos de diferentes idiomas de forma semelhante, reduzindo o número de tokens e aumentando a eficiência de raciocínio em idiomas menos representados. Além disso, as organizações podem auto-hospedar o modelo em centros de dados locais ou em nuvens seguras que atendam aos requisitos da União Europeia, garantindo conformidade com regulamentações de proteção de dados como o RGPD, resolvendo assim problemas de soberania associados a modelos hospedados nos Estados Unidos ou na Ásia.
O TildeOpen, como modelo base, deve lançar versões mais especializadas, como modelos de tradução otimizados por instruções, o que aprimorará ainda mais suas funcionalidades. A Letônia espera ocupar um lugar no cenário global de tecnologia por meio dos esforços da Tilde, ao mesmo tempo em que se dedica à preservação da diversidade linguística.
huggingface:https://huggingface.co/TildeAI/TildeOpen-30b
Tecnologia:https://tilde.ai/lv/tildeopen-llm/
Destaque:
🌍 O TildeOpen LLM é um modelo de linguagem de grande porte de código aberto que suporta diversos idiomas europeus, com foco especial na representatividade de idiomas de pequenos países.
💻 O treinamento do modelo utilizou recursos de supercomputadores europeus e técnicas avançadas de amostragem em três etapas, garantindo equilíbrio e equidade entre os idiomas.
🔒 As organizações podem auto-hospedar esse modelo, cumprindo regulamentações de proteção de dados como o RGPD, aumentando assim a proteção da soberania dos dados.



