OpenAI hat am Morgen um 1 Uhr eine technische Live-Übertragung abgehalten und gab offiziell sein neues Sprachmodell – GPT-Realtime – bekannt. Dieses multimodale Modell wurde speziell für Sprach-AI-Agenten entwickelt und soll natürlichere und flüssigere Sprache erzeugen, die menschliche Vielfalt in Tonfall, Emotion und Sprechgeschwindigkeit nachahmen kann. GPT-Realtime hat vielfältige Anwendungsbereiche, darunter Kundenservice, Bildung, Finanzwesen und Gesundheitswesen, und bietet starke Unterstützung für die Entwicklung intelligenter Sprachassistenten.

image.png

GPT-Realtime verfügt über zwei neue einzigartige Sprachstile – Marin und Cedar – und hat zudem seine acht vorhandenen Stimmen umfassend verbessert. Im Gegensatz zu traditionellen Sprachmodellen kann GPT-Realtime nicht nur Sprache generieren, sondern auch Intelligenz, logisches Denken und Verständnis besitzen. Zum Beispiel kann das Modell Lachlaute und andere nicht-sprachliche Signale genau erkennen und in Gesprächen flexibel zwischen Sprachen wechseln, um unterschiedlichen Szenarien gerecht zu werden.

Bei der Bewertung hat GPT-Realtime in verschiedenen Sprachumgebungen die Genauigkeit bei der Erkennung von alphanumerischen Zeichenreihen deutlich gesteigert. Bei der Bewertung der Schlussfolgerungsfähigkeit erreicht die Genauigkeit 82,8 % und macht es zum führenden intelligenten Sprachmodell. Die Verbesserung der Befehlsfolgefähigkeit ist ebenfalls ein Highlight des Modells. Entwickler können durch benutzerdefinierte Befehle die Reaktionsfähigkeit des Modells verbessern. In der Audio-Benchmark-Testreihe MultiChallenge stieg die Genauigkeit der Befehlsfolge von 20,6 % auf 30,5 %.

Außerdem unterstützt GPT-Realtime Bildeingaben. Entwickler können in einem Gespräch Bilder mit Audio oder Text kombinieren, sodass das Modell auf den Inhalt reagieren und eine noch personalisierte Interaktion bieten kann. Darüber hinaus ermöglicht die neue Funktion des Realtime API, dass Entwickler einfach mit entfernten MCP-Servern verbunden werden können, was den Integrationsprozess vereinfacht und die Entwicklungszeit verkürzt.

Im Hinblick auf Sicherheit und Privatsphäre verfügt das Realtime API über mehrschichtige Schutzmaßnahmen, die durch die Echtzeitüberwachung von Gesprächsinhalten Missbrauch verhindern. Zudem können Entwickler bei Bedarf benutzerdefinierte Sicherheitsvorkehrungen hinzufügen, um die Sicherheit ihrer Nutzungsumgebung sicherzustellen.

Seit der Veröffentlichung können alle Entwickler das neue Realtime API und das GPT-Realtime-Modell nutzen. Der Preis für Audio-Eingabe-Token wurde um 20 % gesenkt. Darüber hinaus können Entwickler flexible intelligente Token-Begrenzungen einstellen, um die Kosten für längere Gespräche zu reduzieren.

Wichtige Punkte:

🌟 GPT-Realtime ist das neueste multimodale Sprachmodell von OpenAI, das für Bereiche wie Kundenservice und Bildung geeignet ist.

📈 Die Schlussfolgerungsfähigkeit und die Befehlsfolgegenauigkeit dieses Modells haben sich deutlich verbessert und bieten Entwicklern starken Support.

🔒 Das Realtime API ist mit Sicherheitsvorkehrungen ausgestattet, um die Sicherheit und Privatsphäre der Benutzerinteraktion zu gewährleisten.