Microsoft hat offiziell angekündigt, dass sein neuestes Sprach-zu-Sprach-Modell (S2S) GPT-realtime jetzt auf der Azure AI Foundry-Plattform offiziell veröffentlicht wurde. Dieses neue Modell integriert mehrere Verbesserungen in der Sprachtechnologie von Microsoft in einem einheitlichen Produkt. Seine Kernvorteile liegen in natürlicher Sprachverarbeitung, hervorragender Audioqualität und präziserer Befehlsausführung.

Microsoft

Entwickler können jetzt über die neu gestaltete Real-time API auf GPT-realtime zugreifen. Das Modell zielt darauf ab, natürlichere und ausdrucksvollere Sprachausgaben und eine höhere Audioqualität zu bieten. Als Teil dieser Veröffentlichung haben Microsoft auch zwei neue Sprachoptionen eingeführt – Marin und Cedar –, um Benutzern realistische und klare Sprachsynthese zu ermöglichen.

Im Communiqué betonte Microsoft einige Schlüsselverbesserungen des neuen Modells, darunter erweiterte Funktionsaufruffähigkeiten, höhere Genauigkeit bei der Befehlsausführung sowie innovative Unterstützung für Bildeingaben. Diese neue Funktion ermöglicht es Benutzern, Bilder in Sprachgesprächen hinzuzufügen und darüber zu sprechen, wodurch multimodale Interaktionen ermöglicht werden, ohne auf Videoströme angewiesen zu sein.

Außer technischen Verbesserungen hat Microsoft auch seine Preismodelle angepasst. Im Vergleich zur vorherigen Preview-Version gpt-4o-realtime ist der Preis des offiziellen gpt-realtime um 20 % gesunken. Die Kosten werden anhand der Nutzung pro Million Tokens berechnet.

Diese Veröffentlichung markiert, dass Microsoft sich bemüht, seine Echtzeit-KI-Fähigkeiten für Entwickler und Unternehmen zu erweitern. Durch die Kombination von ausdrucksvoller Sprachsynthese, hochwertiger Audioqualität und multimodalen Eingaben wird GPT-realtime erwartet, starke technische Unterstützung für eine breite Palette von Anwendungen wie fortgeschrittene Kundenservice-Systeme bis hin zu innovativen Assistenzwerkzeugen zu bieten.