Die lettische Sprachtechnologie-Unternehmen Tilde hat am 3. September 2025 TildeOpen LLM veröffentlicht, ein Open-Source-Grundmodell für große Sprachmodelle (LLM), das darauf abzielt, europäische Sprachen zu unterstützen, insbesondere solche, die in der Minderheit sind. Dieser Schritt markiert einen wichtigen Fortschritt für die EU in Bezug auf sprachliche Gleichberechtigung und digitale Souveränität.

TildeOpen LLM ist ein dichter Dekodierungsmodell mit 30 Milliarden Parametern, das unter einer flexiblen Lizenz CC-BY-4.0 steht und eine Vielzahl von Sprachen wie Lettisch, Litauisch, Ukrainisch, Türkisch usw. unterstützt. Das Modell wurde auf den Supercomputern LUMI (Finnland) und JUPITER in Europa trainiert und nutzte 2 Millionen GPU-Stunden an Rechenressourcen, die durch den Großen KI-Wettbewerb des Europäischen Kommissions bereitgestellt wurden.
In technischer Hinsicht wurde TildeOpen LLM mit einem vom EleutherAI inspirierten GPT-NeoX-Skript trainiert, wobei 450.000 Updates durchgeführt wurden und etwa 2 Billionen Token verwendet wurden. Der Trainingsprozess umfasste drei Phasen der Stichprobenauswahl: Zunächst wurde eine gleichmäßige Verteilung zwischen den Sprachen angestrebt, dann wurde die natürliche Verteilung von Sprachen mit hoher Datenmenge verstärkt und schließlich erfolgte eine gleichmäßige Durchsuchung, um die Balance sicherzustellen. Die Hyperparameter des Modells umfassen 60 Schichten, eine Einbettungsdimension von 6144, 48 Aufmerksamkeitsköpfen, einen Kontextfenster von 8192-Token sowie die Verwendung von SwiGLU-Aktivierung, RoPE-Positionskodierung und RMSNorm-Schichtnormalisierung.
In Bezug auf sprachliche Gleichberechtigung und Datenhoheit verfolgen traditionelle Hauptmodelle oft englischsprachige und andere Hauptsprachen, was dazu führt, dass sie bei der Verarbeitung baltischer, slawischer und anderer kleinerer europäischer Sprachen schlecht abschneiden, häufig Grammatikfehler und seltsame Formulierungen aufweisen. TildeOpen löst dieses Problem durch die Einführung eines „gerechten Tokenizers“, der Texte verschiedener Sprachen in ähnlicher Weise darstellt, wodurch die Anzahl der Tokens reduziert und die Inferenzeffizienz seltener Sprachen erhöht wird. Darüber hinaus können Organisationen das Modell lokal in ihren eigenen Rechenzentren oder in sicheren Clouds, die den Anforderungen der EU entsprechen, selbst hosten, um sicherzustellen, dass die Datenschutzvorschriften wie die DSGVO eingehalten werden und damit Probleme der Souveränität im Zusammenhang mit Modellen, die in den USA oder Asien hostet, gelöst werden.
TildeOpen als Grundmodell wird voraussichtlich weitere spezialisierte Versionen herausbringen, z. B. übersetzungsoptimierte Modell, was seine Funktionalität weiter verbessern wird. Lettland hofft durch die Bemühungen von Tilde, einen Platz in der globalen Technologieindustrie zu erlangen und sich dabei dem Schutz der sprachlichen Vielfalt zu widmen.
huggingface:https://huggingface.co/TildeAI/TildeOpen-30b
Technik:https://tilde.ai/lv/tildeopen-llm/
Zusammenfassung:
🌍 TildeOpen LLM ist ein Open-Source-Modell für große Sprachmodelle, das verschiedene europäische Sprachen unterstützt und besonders auf die Repräsentation kleinerer Länder sprachen achtet.
💻 Das Modell wurde mit Ressourcen europäischer Supercomputer trainiert und verwendet fortschrittliche Techniken zur dreistufigen Stichprobenauswahl, um die Gleichheit und Ausgewogenheit verschiedener Sprachen zu gewährleisten.
🔒 Organisationen können das Modell selbst hosten und sich an Datenschutzvorschriften wie die DSGVO halten, um die Sicherheit der Datenhoheit zu verbessern.




