Das aus zwei Personen bestehende Startup Nari Labs hat Dia vorgestellt, ein Text-to-Speech (TTS)-Modell mit 1,6 Milliarden Parametern, das darauf ausgelegt ist, natürliche Dialoge direkt aus Textaufforderungen zu generieren. Mitbegründer Toby Kim behauptet, Dia übertreffe proprietäre Produkte von Konkurrenten wie ElevenLabs und Googles NotebookLM AI Podcast-Generierungsfunktion und stelle möglicherweise eine Bedrohung für OpenAIs kürzlich veröffentlichtes gpt-4o-mini-tts dar.

Kim erklärte auf X (früher Twitter), dass Dia in Bezug auf die Qualität mit der Podcast-Funktion von NotebookLM mithalten und ElevenLabs Studio und das offene Modell von Sesame übertreffe. Er enthüllte, dass das Modell mit „Null Finanzierung“ entwickelt wurde und betonte, dass sie nicht von Anfang an KI-Experten waren, sondern das Projekt aufgrund ihrer Begeisterung für die Podcast-Funktion von NotebookLM starteten. Sie probierten alle TTS-APIs auf dem Markt aus, fanden aber keine, die natürlich genug klangen. Kim dankte Google für die Erlaubnis, seine Tensor Processing Unit-Chips (TPUs) zum Trainieren von Dia zu verwenden.

Derzeit sind der Code und die Gewichte von Dia auf Hugging Face und GitHub zum Herunterladen und zur lokalen Bereitstellung verfügbar. Einzelne Benutzer können Dia auch online auf Hugging Face Space ausprobieren.

Sprachsteuerung

Erweiterte Steuerung und mehr Anpassungsoptionen

Dia unterstützt feine Funktionen wie emotionale Stimmungen, Sprechermarkierungen und nicht-sprachliche Audio-Hinweise wie (Lachen), (Husten), (Räuspern) – alles nur über reinen Text. Beispiele von Nari Labs zeigen, dass Dia diese Markierungen korrekt interpretiert, während andere Modelle diese oft nicht zuverlässig unterstützen. Das Modell unterstützt derzeit nur Englisch. Die Stimme variiert bei jedem Durchlauf, es sei denn, der Benutzer ändert den Zufallsgenerator oder gibt Audio-Hinweise zur Sprachklonung an.

Nari Labs bietet auf seiner Website Vergleichsbeispiele von Dia mit ElevenLabs Studio und Sesame CSM-1B und zeigt die Überlegenheit von Dia bei der Verarbeitung von natürlichem Rhythmus, nicht-sprachlichen Ausdrücken, Gesprächen mit mehreren Emotionen, Inhalten mit komplexem Rhythmus und der Fortsetzung des Sprachstils durch Audio-Hinweise. Nari Labs weist darauf hin, dass die Demo von Sesame möglicherweise eine interne Version mit mehr Parametern verwendet hat.

Modellzugriff und technische Spezifikationen

Entwickler können Dia über das GitHub-Repository von Nari Labs und die Hugging Face-Modellseite beziehen. Das Modell basiert auf PyTorch 2.0+ und CUDA 12.6 und benötigt ca. 10 GB Grafikspeicher. Nari Labs plant, zukünftig CPU-Unterstützung und quantisierte Versionen bereitzustellen.

Dia wird unter der vollständig offenen Apache 2.0-Lizenz vertrieben und erlaubt die kommerzielle Nutzung. Nari Labs betont das Verbot der Verwendung für unethische Zwecke und fördert verantwortungsvolle Experimente. Die Entwicklung des Projekts wurde durch Google TPU Research Cloud, das ZeroGPU-Förderprogramm von Hugging Face und andere relevante Forschung unterstützt. Nari Labs besteht nur aus zwei Ingenieuren, lädt aber die Community aktiv zur Mitarbeit ein.