Von Tencent! Das AI-Audiomodell EzAudio AI verwandelt Text in Sekundenschnelle in realistischen Sound

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 4 Minuten Lesezeit · Sep 19, 2024

799

Kürzlich haben die Johns Hopkins University und das Tencent AI Lab ein neues Text-zu-Audio-Generierungsmodell namens EzAudio vorgestellt. Diese Technologie verspricht eine beispiellose Effizienz und hohe Qualität bei der Umwandlung von Text in Sprache und markiert einen bedeutenden Fortschritt in der künstlichen Intelligenz und Audiotechnologie.

EzAudio funktioniert, indem es den latenten Raum von Audiowellenformen nutzt, anstatt der traditionellen Spektrogramme. Diese Innovation ermöglicht eine Arbeit mit hoher zeitlicher Auflösung, ohne zusätzliche neuronale Audio-Codecs.

Die Architektur von EzAudio, bekannt als EzAudio-DiT (Diffusion Transformer), verwendet mehrere technologische Innovationen zur Verbesserung der Leistung und Effizienz. Dazu gehören eine neue adaptive Layer-Normalisierungstechnik AdaLN-SOLA, Long-Skip-Verbindungen und fortschrittliche Positionscodierungstechniken wie RoPE (Rotary Position Embedding).

Die Forscher berichten, dass die von EzAudio generierten Audiobeispiele sehr realistisch sind und sowohl objektive als auch subjektive Bewertungen bestehende Open-Source-Modelle übertreffen.

Der Markt für KI-Audiogenerierung wächst derzeit rasant. Bekannte Unternehmen wie ElevenLabs haben kürzlich eine iOS-App für die Text-zu-Sprache-Umwandlung veröffentlicht, was das große Interesse der Verbraucher an KI-Audiotools zeigt. Gleichzeitig investieren Technologieriesen wie Microsoft und Google weiterhin verstärkt in KI-Sprachsimulationstechnologien.

Gartner prognostiziert, dass bis 2027 40 % der generativen KI-Lösungen multimodal sein werden und die Fähigkeiten von Text, Bildern und Audio kombinieren. Dies bedeutet, dass hochwertige Audiogenerierungsmodelle wie EzAudio eine wichtige Rolle im sich ständig weiterentwickelnden KI-Bereich spielen könnten.

Das EzAudio-Team hat seinen Code, seine Datensätze und Modell-Checkpoints veröffentlicht und betont so die Transparenz und fördert die weitere Forschung in diesem Bereich.

Die Forscher glauben, dass die Anwendung von EzAudio über die Generierung von Soundeffekten hinausgehen und Bereiche wie Sprach- und Musikproduktion umfassen könnte. Mit dem Fortschritt der Technologie dürfte es in Branchen wie Unterhaltung, Medien, Assistenzdienste und virtuelle Assistenten weit verbreitet sein.

Demo:https://huggingface.co/spaces/OpenSound/EzAudio

Projektseite:https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file

Wichtigste Punkte:
🌟 EzAudio ist ein neues Text-zu-Audio-Generierungsmodell, das von der Johns Hopkins University in Zusammenarbeit mit Tencent entwickelt wurde und einen bedeutenden Fortschritt in der Audiotechnologie darstellt.
🎧 Das Modell generiert dank seiner innovativen Architektur und Technologie Audiobeispiele von höherer Qualität als bestehende Open-Source-Modelle und verfügt über ein großes Anwendungspotenzial.
⚖️ Mit der Weiterentwicklung der Technologie rücken ethische Fragen und die verantwortungsvolle Nutzung in den Vordergrund. Die Veröffentlichung des Forschungscodes von EzAudio bietet eine breite Möglichkeit, zukünftige Risiken und Vorteile zu prüfen.

AI-Tagesbericht: Meitu veröffentlicht KI-Agent RoboNeo für Bildbearbeitung; 1,8bit-Quantisierung des Kimi K2-Modells ist verfügbar; Amazon präsentiert AI-Code-Editor Kiro

【AI-Tagesbericht – Aktuelle Highlights】 1. Meitu RoboNeo bietet umfassende KI-Bildbearbeitungstools an, unterstützt natürliche Sprachverarbeitung, Brand-Design und Webseitenherstellung; 2. Unsloth AI veröffentlicht das 1,8bit-quantisierte Kimi K2-Modell, Volumen wurde um 80 % reduziert, Leistung bleibt unverändert; 3. Google Gemini-Modell führt MTEB-Rangliste an; 4. Amazon präsentiert AI-Code-Editor Kiro, unterstützt Modelle wie Claude 4; 5. Claude erhält neue Funktion zur Verwaltung von Tools, um die KI-Arbeitsabläufe zu verbessern

Meta kündigt weltweit das erste 1GW+-Leistungssuperrechencluster an, das bald in Betrieb genommen wird. Der Wettbewerb um KI-Rechenleistung wird erneut intensiviert

Meta beschleunigt den Ausbau der KI-Infrastruktur mit dem Supercomputer 'Prometheus' (2026, 1GW, 2 Exaflops) und plant 'Hyperion' (5GW). Investitionen von 60-65 Mrd. USD bis 2025 für Rechenzentren und KI-Teams. Offene Quellen und Datenschutz bleiben Priorität, hoher Energieverbrauch wirft Umweltbedenken auf.....

Goldman Sachs stellt neue KI-Mitarbeiter ein Deutsch beginnt die Ära der intelligenten Finanzen

Goldman Sachs führt KI-Codierungshilfe 'Devin' ein, um die Effizienz zu steigern. Es wird als Assistenz für Entwickler eingesetzt, um die Produktivität zu erhöhen. Trotz begrenzter Fähigkeiten für komplexe Aufgaben wurde die Verarbeitung großer Codebasen optimiert. KI ersetzt keine menschlichen Entwickler.....

Meta kauft die Sprach-KI-Startup-Unternehmen Play AI

Meta kauft das Sprach-KI-Startup-Unternehmen Play AI, um seine Fähigkeiten im Bereich Sprachtechnologie für KI-Rollen und Wearables zu stärken. Das Team von Play AI wird vollständig zu Meta wechseln, und seine Technologie zur natürlichen Sprachgenerierung passt sehr gut zu mehreren KI-Projekten von Meta. Dies ist eine weitere wichtige Entwicklung in der KI-Strategie von Meta. Zuvor hat Meta bereits Mitarbeiter aus OpenAI gewonnen und einen Kooperationsvertrag mit Scale AI geschlossen. Der Kaufbetrag wurde nicht bekannt gegeben.

Google DeepMind veröffentlicht GenAI Processors als Open-Source: Schnellere Entwicklung von Echtzeit-KI-Workflows

Google DeepMind veröffentlichte eine Open-Source-Python-Bibliothek namens GenAI Processors, die Entwicklern dabei hilft, effiziente generative KI-Workflows zu erstellen. Die Bibliothek unterstützt asynchrone Verarbeitung von multimodalen Daten und optimiert die Entwicklung von Anwendungen mit dem Gemini-API, wodurch die Latenz in Echtzeitanwendungen deutlich reduziert wird. Zu den Kernfunktionen gehören modulare Processor-Schnittstellen, ein Streaming-API-Entwurf und Optimierungen für Parallelverarbeitung, die es ermöglichen, schnell intelligente Assistenten und andere Echtzeitanwendungen zu konstruieren. Derzeit ist die Bibliothek nur für Python verfügbar, aber der Community-Beitrag wird ermutigt und es sind Pläne für zukünftige Erweiterungen geplant, um mehr Szenarien abzudecken.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Von Tencent! Das AI-Audiomodell EzAudio AI verwandelt Text in Sekundenschnelle in realistischen Sound

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

AI-Tagesbericht: Meitu veröffentlicht KI-Agent RoboNeo für Bildbearbeitung; 1,8bit-Quantisierung des Kimi K2-Modells ist verfügbar; Amazon präsentiert AI-Code-Editor Kiro

Grok4 kommt! Ein neues Lieblingsspielzeug von Musk in der KI erfolgreich die Programmierprüfung bestanden

Meta kündigt weltweit das erste 1GW+-Leistungssuperrechencluster an, das bald in Betrieb genommen wird. Der Wettbewerb um KI-Rechenleistung wird erneut intensiviert

Meta könnte das Open-Source-Konzept aufgeben und sich auf die Entwicklung von geschlossenen KI-Modellen konzentrieren

RoboNeo von Meitu ist online: Mit einer einzigen Zeile Bildbearbeitung und Website-Erstellung erledigt – Die KI-Bildverarbeitung betritt eine neue Ära der Allzweckfähigkeit

KI-Chats mit virtuellen Freunden - Experten beunruhigen sich über Auswirkungen auf die soziale Entwicklung von Kindern

Goldman Sachs stellt neue KI-Mitarbeiter ein Deutsch beginnt die Ära der intelligenten Finanzen

Meta kauft die Sprach-KI-Startup-Unternehmen Play AI

Google DeepMind veröffentlicht GenAI Processors als Open-Source: Schnellere Entwicklung von Echtzeit-KI-Workflows

AWS setzt bei der KI-Entwicklung auf verstärkte Infrastruktur, die SageMaker-Plattform erhält eine große Aktualisierung