GPT-4o Sprachmodus komplett überarbeitet: Gesangsfunktion eingeführt

GPT-4o Sprachmodus komplett überarbeitet: Gesangsfunktion eingeführt - Der AI-Interaktion geht ein neues Level

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 6 Minuten Lesezeit · May 27, 2025

Das Advanced Voice Mode (AVM) von GPT-4o von OpenAI hat kürzlich eine bedeutende Aktualisierung erfahren, die nicht nur natürlichere Sprachinteraktionen ermöglicht, sondern auch das bemerkenswerte „Singen“-Feature hinzugefügt hat. Obwohl derzeit die Singperformance noch etwas unbeholfen ist, öffnet diese Innovation zweifellos neue Möglichkeiten für die multimodale Interaktionsfähigkeit von KI. AIbase fasst die neuesten Informationen zusammen und erklärt die neuesten Entwicklungen und Potenziale des Sprachmodus von GPT-4o.

„Singen“-Funktion aktiviert: KI lernt zu singen

Neueste Nachrichten zeigen, dass der Advanced Voice Mode von GPT-4o nun die Fähigkeit zum Singen unterstützt. Nutzer können dem KI-System Anweisungen geben, um Songs zu interpretieren – einschließlich einiger urheberrechtlich geschützter Titel. Diese Funktion ermöglicht es GPT-4o, Melodien, Texte oder bestimmte Stilinterpretationen gemäß den Wünschen der Nutzer zu generieren, was das Interaktionserlebnis unterhaltsamer macht. Obwohl die „Sangqualität“ noch verbessert werden muss, zeigt AIbase, dass dieser Schritt ein neues Versuchsfeld im Bereich der audiospezifischen Generierung markiert.

Multimodale Interaktion weiter verbessert: Naturhafter und emotionaler

Der Advanced Voice Mode von GPT-4o zeichnet sich durch seine end-to-end-Sprachverarbeitung aus, was ihn gegenüber herkömmlichen Sprachmodi (Text-zu-Stimme-Umsetzung und -Generierung) deutlich schneller macht. Die mittlere Antwortverzögerung beträgt lediglich 320 Millisekunden. Darüber hinaus kann GPT-4o das Tempo und den Tonfall des Nutzers erkennen und mit emotional gefärbten Antworten reagieren, selbst wenn der Nutzer das Gespräch unterbrechen möchte. Dies schafft eine nahezu menschenähnliche Konversationsqualität.

Funktionshervorhebung: Lachen, Weinen und mehr

Neben dem Singen bietet der Advanced Voice Mode von GPT-4o die Möglichkeit, auf Anweisungen Emotionen wie Lachen oder Weinen zu erzeugen, was die Interaktionsmöglichkeiten weiter bereichert. Beispielsweise können Nutzer Anfragen stellen, die dramatische, humorvolle oder spezifische Rollenstimmen verlangen, wie z. B. Animationen oder berühmte Stimmenimitationen. Diese Flexibilität macht die KI in Unterhaltungs-, Bildungs- und kreativen Inhalten sehr vielversprechend.

Aktuelle Grenzen: Der Gesang braucht noch Arbeit

Obwohl die neue Singfunktion eingeführt wurde, erreicht die Gesangsperformance von GPT-4o noch keine professionellen Standards. In Tests war das System bei komplexen Melodien oder hohen Tönen manchmal unflüssig, und einige Nutzer berichteten, dass die Soundqualität im Vergleich zu anderen Sprachmodellen (wie Pi AI oder Siri) etwas unterlegen sei. Die geringe Abtastrate führt zu einer leicht komprimierten Klangqualität. OpenAI erklärte, dass der Gesang in erster Linie eine Grenze der Audiomodellierung erkunden sollte, und wird die Performance durch fortlaufende Optimierungen verbessern.

Sicherheit und Urheberrechtsüberlegungen: Eingeschränkte Innovation

Um Urheberrechte zu respektieren, hat OpenAI strengere Filtermechanismen für die Sprachausgabe von GPT-4o implementiert, die es limitieren, urheberrechtlich geschützte Musikinhalte zu generieren. Neuere Informationen zeigen jedoch, dass einige Nutzer bereits erfolgreich urheberrechtlich geschützte Lieder von dem System singen lassen konnten, was Diskussionen über die Grenzen des Urheberrechts ausgelöst hat. Darüber hinaus weist GPT-4o bei bestimmten Audiotasks (wie automatischem Gesangsbewerten oder Sprachsynthese) eine hohe Ablehnungsrate auf, möglicherweise aus Gründen der Vermeidung ungenehmigter Inhalte oder fehlender objektiver Bewertungskriterien.

Ein neues Kapitel für Sprach-KI

Die Aktualisierung des Advanced Voice Modes von GPT-4o, insbesondere die Einführung der Gesangsfunktion, markiert einen weiteren Durchbruch von OpenAI in der multimodalen KI. Obwohl die derzeitige Gesangsdarstellung noch optimiert werden muss, haben die niedrigen Antwortverzögerungen, die naturhaften Interaktionen und die emotionale Ausdrucksfähigkeit bereits Vorreiterposition gegenüber herkömmlichen Sprachassistenten wie Siri und Alexa eingenommen. AIbase glaubt, dass OpenAI mit fortschreitenden Verbesserungen in der Tonqualität und im Urheberrechtsmanagement GPT-4o bald in Bildungs-, Unterhaltungs- und Kundenservicebereichen neue Anwendungswellen auslösen wird.

Zusammenfassung

Die „Singen“-Funktion von GPT-4o bringt dem KI-Interaktion mehr Spaß und Möglichkeiten, obwohl noch technische Feinheiten nötig sind. Von niedriger Antwortverzögerung bis hin zur emotionalen Ausdrucksfähigkeit definiert GPT-4o neu die Grenzen der Mensch-Maschine-Kommunikation.

OpenAI präsentiert neues Sprach-zu-Text-Modell gpt-4o-transcribe – deutlich höhere Genauigkeit

Nach einigen Aufmerksamkeit erregendem Aktivitäten im Bereich der Sprach-KI, hat OpenAI die Forschung in diesem Bereich nicht aufgegeben. Der Schöpfer von ChatGPT legt nun erneut nach und präsentiert drei neue, selbst entwickelte Sprachmodelle: gpt-4o-transcribe, gpt-4o-mini-transcribe und gpt-4o-mini-tts. Das interessanteste Modell ist dabei gpt-4o-transcribe. Diese neuen Modelle sind bereits...

OpenAI veröffentlicht GPT-4O-Audio-Preview: Sprachsteuerung mit Emotionserkennung!

OpenAI setzt erneut Maßstäbe in der KI-Technologie mit dem neuen Modell gpt-4o-audio-preview. Dieses Modell beeindruckt nicht nur durch seine Fähigkeiten in der Sprachgenerierung und -analyse, sondern eröffnet auch neue Möglichkeiten für die Mensch-Maschine-Interaktion. Werfen wir einen genaueren Blick auf die Eigenschaften und potenziellen Anwendungen dieses innovativen Modells. Die Kernfunktionen von gpt-4o-audio-preview lassen sich in drei Bereiche unterteilen: Erstens erzeugt es auf Basis von Text natürliche und flüssige Sprachantworten, was Anwendungen wie Sprachassistenten und virtuellen Kundenservice zugutekommt.

OpenAI neues Modell gpt-4o-2024-08-06 und gpt-4o-mini unterstützen strukturierte Ausgaben

OpenAI hat in seiner API die Funktion für strukturierte Ausgaben hinzugefügt, um sicherzustellen, dass die generierten Ausgaben vollständig dem vorgegebenen JSON-Schema entsprechen. Dies erhöht die Zuverlässigkeit der API und die Genauigkeit der Anwendungen deutlich. Diese Funktion definiert nicht nur die Struktur des JSON, sondern gewährleistet auch die Genauigkeit der Ausgabe. Gleichzeitig wurden die Preise gesenkt: Die Eingangs-Kosten wurden halbiert und die Ausgabe-Kosten um ein Drittel reduziert. Die Einführung strukturierter Ausgaben behebt die Einschränkungen von JSON-Schemas bei der Gewährleistung der Konformität der Ausgaben mit einer bestimmten Struktur und verbessert die Leistung des Modells bei strukturierten Ausgaben erheblich. Durch technologische Innovationen, wie z.B. Beschränkungen...

OpenAI veröffentlicht neues Modell gpt-4o-64k-output-alpha: GPT-4o API unterstützt nun bis zu 64K Output

Das herausragende Merkmal des neuen OpenAI-Modells gpt-4o-64k-output-alpha ist die Möglichkeit, bis zu 64K Tokens in einem einzigen Output zu generieren. Dies eignet sich ideal für die Erstellung umfangreicher und detaillierter Inhalte und erfüllt die Anforderungen von Schreibaufgaben, Programmierung und komplexen Datenanalysen. Diese Funktion erhöht jedoch den API-Preis: Die Kosten für eine Million Output-Tokens betragen 18 US-Dollar, im Vergleich dazu kosten eine Million Input-Tokens nur 6 US-Dollar. Dies soll den hohen Rechenkosten entsprechen und einen verantwortungsvollen Umgang mit diesem leistungsstarken Tool fördern. Das Modell ist für die Bereiche Kreativität und Forschung konzipiert.

KI-Nachrichten

KI-Tagesübersicht

KI-Zeitleiste

Al hardware

Neueste Fälle

Bildersammlung

Videosammlung

Audiosammlung

Inhaltssammlung

Neueste Tutorials

KI-Produkt-Ranking

KI-Traffic-Wachstumsranking

KI-Traffic-Rückgangsranking

KI-Wochenranking

Vereinigte Staaten

China

Indien

Brasilien

Bildgenerierung

Persönlicher Assistent

Charaktergenerierung

Videogenerierung

KI-Projektranking

KI-Projektwachstumsranking

KI-Entwickler-Ranking

KI-Organisationsranking

Deepseek

TTS

LLM

ChatGPT

Überblick