Willkommen beim AI-Tagesbericht! Hier finden Sie Ihren täglichen Guide zur Erkundung der Welt der künstlichen Intelligenz. Täglich präsentieren wir Ihnen die wichtigsten Themen aus dem KI-Bereich, mit Fokus auf Entwickler, um Ihnen zu helfen, Technologietrends zu erkennen und innovative KI-Produktanwendungen kennenzulernen.

Neue KI-Produkte hier entdecken: https://top.aibase.com/

1. Alibabas Tongyi Qianwen Qwen2.5-Omni erobert die Spitze der globalen Open-Source-Modell-Rangliste

veröffentlichte Hugging Face die neueste Rangliste der großen Sprachmodelle. Alibabas Qwen2.5-Omni erreichte dank seiner herausragenden Leistung und multi-modalen Fähigkeiten die Spitze und wurde zum weltweit führenden Open-Source-Modell. Dieser Erfolg unterstreicht nicht nur Alibabas Stärke in der Technologieentwicklung, sondern schafft auch Voraussetzungen für die Verbreitung und Anwendung von KI-Technologien.

image.png

【AiBase Zusammenfassung:】

🏆 Qwen2.5-Omni belegt den ersten Platz in der globalen Open-Source-Modell-Rangliste und zeigt beeindruckende Leistung und multi-modale Fähigkeiten.

🔍 DeepSeek-V3-0324 und SpatialLM-Llama-1B folgen dicht dahinter und bieten Entwicklern mehr Auswahlmöglichkeiten.

🌐 Alibaba Tongyi Qianwen hat bereits 200 Modelle open-source veröffentlicht und treibt die Verbreitung und Anwendung von KI-Technologien voran.

2. MiniMax Audio präsentiert Speech-02 Sprachmodell mit 200.000 Zeichen Eingabemöglichkeit

MiniMax Audio hat kürzlich die neue Speech-02 Sprachmodellreihe vorgestellt, die über 30 Sprachen unterstützt und bis zu 200.000 Zeichen auf einmal verarbeiten kann. Das neue Modell erreicht eine 99%ige Ähnlichkeit zur menschlichen Stimme in Bezug auf die Natürlichkeit der Sprachsynthese und behebt außerdem Rhythmusprobleme bei der Audiowiedergabe, um ein flüssiges Hörerlebnis zu gewährleisten. Darüber hinaus ermöglichen die neuen Funktionen „Read Anything“ und „Long-Text Mode“ den Nutzern einen einfacheren Zugriff auf und die Verarbeitung von langen Texten, was die Benutzerfreundlichkeit erheblich verbessert.

image.png

【AiBase Zusammenfassung:】

🎤 Die Speech-02-Reihe unterstützt über 30 Sprachen, erreicht eine 99%ige Ähnlichkeit zur menschlichen Stimme und bietet ein natürliches und flüssiges Audioerlebnis.

📄 Die neue Funktion „Read Anything“ ermöglicht es Nutzern, Dateien hochzuladen oder URLs einzufügen, um jederzeit verschiedene Inhalte anzuhören.

📝 Der „Long-Text Mode“ unterstützt die Eingabe von 200.000 Zeichen auf einmal und ermöglicht die einfache Bearbeitung langer Texte, ideal für Hörbücher und Podcasts.

Detaillierte Informationen: https://www.minimax.io/audio

3. Riesenerfolg! ChatGPT verzeichnet 20 Millionen zahlende Nutzer und ein Umsatzwachstum von 30%

OpenAIs ChatGPT hat innerhalb von nur drei Monaten die Zahl der zahlenden Nutzer auf über 20 Millionen erhöht und ein jährliches Umsatzwachstum von fast 30% verzeichnet, was die hohe Nachfrage nach diesem KI-Tool belegt. Obwohl der Anteil der zahlenden Nutzer leicht gesunken ist, liegt die Zahl der wöchentlich aktiven Nutzer bereits bei 500 Millionen. Um die wachsende Nutzerbasis zu unterstützen, plant OpenAI eine Finanzierung von 40 Milliarden US-Dollar, obwohl das Unternehmen noch immer Verluste macht und der Gewinn voraussichtlich noch fünf Jahre entfernt ist.

image.png

【AiBase Zusammenfassung:】

🌟 ChatGPT hat über 20 Millionen zahlende Nutzer und ein jährliches Umsatzwachstum von 30% erreicht.

💰 OpenAI plant eine Finanzierung von 40 Milliarden US-Dollar und strebt weiterhin nach Profitabilität.

🚀 Konkurrenten wie Gemini, Claude und Grok wachsen schnell, der Wettbewerb auf dem Markt verschärft sich.

4. ElevenLabs veröffentlicht „Text To Bark“, das weltweit erste KI-Text-zu-Sprache-Modell für Hunde

ElevenLabs hat „Text To Bark“, das weltweit erste KI-Text-zu-Sprache-Modell speziell für Hunde, vorgestellt. Diese Technologie kann vom Menschen eingegebene Texte in sehr realistisch klingende Hundebellen umwandeln, wobei behauptet wird, dass 95% der Hunde die Quelle des Geräusches nicht unterscheiden können. Diese Innovation bietet neue Möglichkeiten für die Kommunikation zwischen Mensch und Tier, obwohl Hunde die genaue Bedeutung wahrscheinlich immer noch nicht verstehen.

image.png

【AiBase Zusammenfassung:】

🐕‍🦺 Das „Text To Bark“-Modell wandelt Text in Hundebellen um und behauptet, dass 95% der Hunde seine Echtheit nicht erkennen können.

🎤 Benutzer können die Hunderasse auswählen und den Ton und das Tempo des Gebells an verschiedene Situationen anpassen.

🌐 ElevenLabs plant, diese Technologie auf andere Tiere auszuweiten und multimodale Interaktionssysteme zu erforschen.

Detaillierte Informationen: https://top.aibase.com/tool/text-to-bark

5. Noch immer Probleme mit der Bearbeitung vieler Bilder? Tencent Yuanbao Update: Mehrere Bilder hochladen + intelligente Bearbeitung mit einem Klick

Tencent Yuanbao hat kürzlich ein wichtiges Funktionsupdate erhalten, insbesondere wurden die Fähigkeiten zur Bilderkennung deutlich verbessert. Benutzer können jetzt bis zu 10 Bilder gleichzeitig hochladen, sowohl mit dem Hun Yuan als auch dem DeepSeek-Modell lässt sich eine konsistente Bilderkennung und -interpretation erreichen. Diese Funktion zeigt sich in der Praxis als äußerst nützlich und hilft Nutzern, Informationen schnell zu extrahieren, Texte zu generieren und sogar Skizzen in Web-Demos umzuwandeln.

image.png

【AiBase Zusammenfassung:】

📸 Unterstützung für das gleichzeitige Hochladen von 10 Bildern, wodurch die Effizienz der Bilderkennung gesteigert wird.

📝 In Kombination mit der Hun Yuan Multimodal-Verständnisfähigkeit bietet es eine konsistente Inhaltsanalyse und Textgenerierung.

💻 Umfassende Unterstützung für mehrere Plattformen, einschließlich Mobilgeräte, Computer und Web, für eine einfache Bedienung.

6. EasyControl_Ghibli Modell online: Kostenlose Freischaltung der Bildgenerierung im Ghibli-Stil

Die Einführung des EasyControl_Ghibli-Modells bietet Nutzern ein kostenloses Tool zur einfachen Generierung von Bildern im Stil von Studio Ghibli. Es überwindet die Grenzen traditioneller KI-Bildgenerierung und ermöglicht es auch normalen Nutzern, an der künstlerischen Gestaltung teilzunehmen und die Freude und Wärme der Technologie zu erleben. Obwohl das Modell noch Verbesserungspotenzial hat, eröffnen seine Open-Source-Natur und Benutzerfreundlichkeit neue Möglichkeiten in Bildung, Unterhaltung und persönlichem Ausdruck und zeigen das Potenzial und den Reiz von KI-Technologien.

image.png

【AiBase Zusammenfassung:】

🌟 Das EasyControl_Ghibli-Modell ist auf der Hugging Face-Plattform verfügbar und ermöglicht Nutzern die kostenlose Generierung von Bildern im Ghibli-Stil.

🖼️ Das Modell wurde auf Basis von 100 Fotos echter asiatischer Gesichter trainiert und kann Licht und Schatten sowie Emotionen aus Ghibli-Filmen einfangen.

🚀 Die Open-Source-Natur und Benutzerfreundlichkeit des Modells ermöglichen es normalen Nutzern, leicht an der künstlerischen Gestaltung teilzunehmen und die Distanz zwischen Menschen zu verringern.

Detaillierte Informationen: https://top.aibase.com/tool/easycontrol-ghibli

7. PaddlePaddle 3.0 offiziell veröffentlicht: Unterstützt große Modelle wie Wenxin 4.5, reduziert die Kosten für die Chip-Anpassung um 80%

Baidus Deep-Learning-Plattform PaddlePaddle hat kürzlich ihr neues Framework 3.0 vorgestellt, das eine wichtige technologische Innovation im Bereich des Deep Learning darstellt. Durch die Einführung von fünf Kerntechnologien, wie z. B. automatischem Parallelisieren von statischen und dynamischen Berechnungen, werden die Entwicklungs- und Trainingskosten für große Modelle deutlich reduziert und gleichzeitig die Leistung und Anpassungsfähigkeit verbessert. PaddlePaddle 3.0 unterstützt mehrere gängige große Modelle und ermöglicht eine nahtlose Übertragung zwischen verschiedenen Chips, wodurch die Kosten für die Hardwareanpassung um 80% gesenkt werden.

image.png

【AiBase Zusammenfassung:】

⚙️ PaddlePaddle Framework 3.0 führt fünf Kerntechnologien ein, um die Entwicklungs- und Trainingskosten für große Modelle zu senken.

📈 Durch die optimierte DeepSeek-R1-Einzelplatz-Bereitstellung wird der Durchsatz um das Doppelte gesteigert.

💻 Unterstützt über 60 gängige Chips und ermöglicht eine nahtlose Übertragung zwischen verschiedenen Chips, wodurch die Anpassungskosten um 80% gesenkt werden.

8. Krea integriert Gemini Text-zu-Bild- und Bildbearbeitungsfunktionen: Die Chat-Oberfläche erlebt einen praktischen Quantensprung

Krea hat kürzlich eine tiefgreifende Integration mit Google Gemini durchgeführt und erfolgreich Funktionen zur Textgenerierung von Bildern und zur Bildbearbeitung hinzugefügt, wodurch die Generierungsmöglichkeiten und die Benutzerfreundlichkeit der Plattform erheblich verbessert wurden. Dieses Update verwandelt die Krea-Chat-Oberfläche von einem einfachen Chat-Tool in eine umfassende Kreativplattform, die es ermöglicht, visuelle Inhalte schnell zu generieren und zu bearbeiten und die Einstiegshürde senkt.

image.png

【AiBase Zusammenfassung:】

🖼️ Krea integriert Google Gemini und bietet Funktionen zur Textgenerierung von Bildern und zur Bildbearbeitung, wodurch die Benutzerfreundlichkeit verbessert wird.

💡 Benutzer können mithilfe von natürlicher Sprache schnell Bilder generieren und bearbeiten, wodurch die Kreationshürde gesenkt wird.

🚀 Dieses Update dürfte die Dauer von der Konzeption bis zur Fertigstellung in der Kreativbranche verkürzen und die Teamarbeitsfähigkeit verbessern.

9. Tencent veröffentlicht GeometryCrafter: Mit KI die geometrische Konsistenz von Open-World-Videos erschließen

Tencents kürzlich vorgestelltes GeometryCrafter-Modell hat im Bereich der geometrischen Schätzung von Open-World-Videos einen bedeutenden Durchbruch erzielt und mithilfe der Diffusionsprior-Technologie ein tiefes Verständnis und eine Verarbeitung dynamischer Videoinhalte ermöglicht. Das Modell kann ohne zusätzliche Informationen konsistente geometrische Informationen extrahieren und generieren und füllt damit eine Lücke in diesem Bereich.

image.png

【AiBase Zusammenfassung:】

🌐 GeometryCrafter erreicht mithilfe der Diffusionsprior-Technologie eine konsistente geometrische Schätzung von Open-World-Videos und verbessert das tiefe Verständnis von Videoinhalten.

🔍 Das Modell kann ohne Kameraposen oder optische Flussdaten detaillierte und konsistente Tiefenfolgen und geometrische Strukturen generieren und füllt damit eine Lücke in der Branche.

💡 Tencent veröffentlicht den Modellcode auf Hugging Face, um die Verbreitung von KI-Technologien voranzutreiben und mehr Entwicklern die Teilnahme an der Technologieforschung zu ermöglichen.

Detaillierte Informationen: https://huggingface.co/papers/2504.01016

10. Meta präsentiert das KI-System MoCha: Text wird in Sekundenschnelle zu lebendigen Animationsfiguren, mit natürlicher Lippen- und Bewegungssynchronisation

Das von Meta und einem Forschungsteam der Universität Waterloo gemeinsam entwickelte KI-System MoCha generiert aus Textbeschreibungen Ganzkörper-Animationsfiguren mit synchronisierter Sprache und natürlichen Bewegungen. Diese Technologie bedeutet eine deutliche Steigerung der Effizienz und Ausdruckskraft bei der Inhaltserstellung und zeigt insbesondere in Bereichen wie digitalen Assistenten und virtuellen Avataren ein großes Anwendungspotenzial.

image.png

【AiBase Zusammenfassung:】

🎭 MoCha kann aus Text Ganzkörper-Animationsfiguren generieren, die natürliche Bewegungen und synchronisierte Sprache aufweisen.

🗣️ Durch einen innovativen „Audio-Video-Fenster-Aufmerksamkeits“-Mechanismus erreicht MoCha eine präzisere Lippensynchronisation und löst Herausforderungen bei der Audio- und Videogenerierung.

👥 Das Mehrpersonen-Managementsystem ist einfach und effizient. Benutzer müssen die Informationen zu den Figuren nur einmal definieren, um sie in verschiedenen Szenarien verwenden zu können, was die Erstellung vereinfacht.

Detaillierte Informationen: https://top.aibase.com/tool/mocha

11. GPT-4.5 besteht erstmals den Turing-Test durch „Rollenspiel“: KI-Dialogfähigkeiten erreichen ein neues Niveau

Eine Studie der University of California, San Diego, zeigt, dass OpenAIs GPT-4.5 den Turing-Test erstmals durch „Rollenspiel“ mit übermenschlicher Leistung bestanden hat und damit das KI-System mit den menschenähnlichsten Dialogfähigkeiten ist. Das Modell zeigt eine hervorragende Leistung in Bezug auf die Natürlichkeit der Sprache und den Ausdruck von Emotionen und kann flexibel auf emotionale Veränderungen der Prüfer reagieren, was eine menschenähnliche soziale Intelligenz zeigt. Dieser Durchbruch treibt nicht nur die Entwicklung der KI-Technologie voran, sondern wirft auch Fragen nach den Standards der KI-Intelligenz auf.

image.png

【AiBase Zusammenfassung:】