AI-Tageszeitung: Alibaba Tongyi veröffentlicht den offenen Audio-Generationsmodell ThinkSound; Google Veo3 erzeugt Bilder zu Videos; Feishu stellt eine Reihe neuer AI-Produkte vor

Willkommen bei der Rubrik „AI Daily“! Hier ist Ihr tägliches Leitfaden für die Welt der künstlichen Intelligenz. Jeden Tag präsentieren wir Ihnen die neuesten Entwicklungen aus dem Bereich der KI, mit Fokus auf Entwickler und helfen Ihnen dabei, technologische Trends zu verstehen und innovative Anwendungen von KI-Produkten kennenzulernen.

Neue KI-Produkte klicken Sie hier:https://top.aibase.com/

1. Alibaba TONGYI open-sourcet den audio-generierenden Modell ThinkSound mit Unterstützung für Kettenreasoning

Das Sprach-KI-Team von Alibaba hat das weltweit erste audio-generierende Modell ThinkSound mit Unterstützung für Kettenreasoning öffentlich zugänglich gemacht. Durch die Einführung der Denkketten-Technologie überwindet dieses Modell die Grenzen der traditionellen Video-zu-Audio-Technik und ermöglicht eine hochauflösende, stark synchronisierte räumliche Audioerzeugung. Dieser technologische Fortschritt markiert einen Übergang der KI-Audio von „Bildunterschreiben“ zu „strukturierter Bildverstehens“.

【AiBase-Zusammenfassung:】
🧠 ThinkSound kombiniert erstmals multimodale große Sprachmodelle mit einer einheitlichen Audio-Generierungsarchitektur, um präzise Audiosynthese zu ermöglichen.
📊 Das Forschungsteam hat eine Datenbank namens AudioCoT mit 2531,8 Stunden hochwertiger Proben erstellt, um die Fähigkeit des Modells zur Verarbeitung komplexer Befehle zu verbessern.
🚀 ThinkSound schneidet in mehreren Testdatensätzen besser ab als etablierte Methoden. Der Code und die vortrainierten Gewichte sind frei zugänglich, und Entwickler können sie kostenlos erhalten.
Weitere Informationen: https://github.com/FunAudioLLM/ThinkSound https://huggingface.co/spaces/FunAudioLLM/ThinkSound https://www.modelscope.cn/studios/iic/ThinkSound

2. Google Veo3 wird stark aktualisiert, unterstützt die Erstellung lebendiger Videos aus statischen Bildern

Google kündigte eine wichtige Aktualisierung seines AI-Video-Generierungstools Veo3 an. Benutzer müssen nur ein statisches Bild hochladen, um hochwertige Audio- und Videoinhalte zu generieren, was die enorme Potenzial von KI im kreativen Bereich zeigt. Die Kernfunktionen von Veo3 beinhalten die Aufrechterhaltung der Konsistenz von Charakteren in verschiedenen Szenen und bieten reiche Kamerabewegungen wie Dolly-in-Bewegungen. Darüber hinaus können Benutzer verschiedene Qualitätsmodelle wählen, wobei entsprechende Credits verbraucht werden.

【AiBase-Zusammenfassung:】
🖼️ Nach der Aktualisierung kann Veo3 hochwertige dynamische Videos aus einem einzelnen statischen Bild generieren.
🎥 Es unterstützt Kamerabewegungen wie Dolly-in, um die Professionalität des Videos zu erhöhen.
🔊 Benutzer können verschiedene Qualitätsmodelle wählen, benötigen jedoch entsprechende Credits.

3. Hugging Face veröffentlicht das neue kleine Modell SmolLM3: 128K Kontext, doppelte Schreibweise

Hugging Face veröffentlichte SmolLM3, ein kleines Open-Source-Modell mit 3 Milliarden Parametern, dessen Leistung besser ist als Llama-3.2-3B und Qwen2.5-3B. Das Modell unterstützt mehrere Sprachverarbeitungsfunktionen und verfügt über eine doppelte Schreibweise-Funktion. Zudem wurden Architekturdetails veröffentlicht, um Forschung und Optimierung zu fördern.

【AiBase-Zusammenfassung:】
🧠 SmolLM3 hat 3 Milliarden Parameter und schneidet besser ab als vergleichbare Open-Source-Modelle. Es unterstützt mehrsprachige Verarbeitung.
⚙️ Es bietet zwei Schreibweisen, tiefes Denken und nicht-tiefe Schreibweise, flexibel für unterschiedliche Anforderungen.
📊 Es verwendet eine fortschrittliche Transformer-Decodierarchitektur und verbessert seine Fähigkeiten durch dreistufige gemischte Trainingsmethoden.
Weitere Informationen: https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

4. Alibaba open-sourcet WebSailor, mit starker Schlussfolgerung und Retrieval-Fähigkeiten

Alibaba TONGYI open-sourcet das WebSailor-Netzwerk-Agent, das in den BrowseComp-Testkollektionen für chinesische und englische Aufgaben gut abschneidet. Es übertreffen DeepSeek R1 und Grok-3, geschlossene Modelle, und zeigt starke Schlussfolgerung und Retrieval-Fähigkeiten. Galaxy Securities betont, dass die AI-Agent-Wirtschaft vollständig geöffnet wurde und empfiehlt, auf SAAS-Unternehmen mit führender Position zu achten. Unternehmen wie Focus Technology und Zhongke Jincai haben bereits in der Anwendung von AI-Agent-Technologie investiert und fördern die Entwicklung von Agententechnologien.

【AiBase-Zusammenfassung:】
📌 Alibaba TONGYI open-sourcet WebSailor mit starker Schlussfolgerung und Retrieval-Fähigkeiten.
📈 Galaxy Securities betont, dass die AI-Agent-Wirtschaft vollständig geöffnet wurde und empfiehlt, auf SAAS-Unternehmen zu achten.
💡 Unternehmen wie Focus Technology und Zhongke Jincai haben klare Vorteile in der Anwendung von Agententechnologien.
Weitere Informationen: https://github.com/Alibaba-NLP/WebAgent

5. Moonvalley veröffentlicht Marey Realism v1.5: Natives 1080P AI-Video-Modell, kein Urheberrechtsrisiko, führt eine neue Branche an!

Moonvalleys Marey Realism v1.5 AI-Video-Modell hat eine umfassende Verbesserung in Bezug auf Bildqualität, kreativer Freiheit und rechtlicher Compliance erreicht. Seine native 1080P-Video-Generierungsfähigkeit, Trainingsdaten basierend auf lizenzierten Inhalten und die Fähigkeit, komplexe Hinweise präzise zu interpretieren, bieten sicherere und effizientere Werkzeuge für Filmproduktion und Werbungskreation.

【AiBase-Zusammenfassung:】
🎥 Native 1080P-Video-Generierungsfähigkeit, bietet visuelle Erfahrung nahe realer Aufnahmen.
🔒 100% lizenzierte Datentraining, vollständig urheberrechtssicher.
🔄 Unterstützt Text-zu-Video und Bild-zu-Video-Generierung, erhöht die kreative Flexibilität.

6. Vidu Q1 überraschende Aktualisierung: Referenz-zu-Video unterstützt bis zu sieben Bilder, AI-Video-Generierung erreicht neuen Höchststand

Die „Referenz-zu-Video“-Funktion von Vidu Q1 ermöglicht es Benutzern, bis zu sieben Referenzbilder hochzuladen, um hochwertige 1080P-Videos mit hoher visueller Konsistenz zu generieren. Diese Technologie sorgt durch semantische Fusion dafür, dass die Elemente aus mehreren Bildern im Video konsistent bleiben und löst so Probleme wie Szenenbruch oder charakterliche Verzerrung in traditionellen AI-Video-Generierungstechniken, was Kreatoren mächtige Werkzeuge bietet.

【AiBase-Zusammenfassung:】
🎥 Unterstützt bis zu sieben Referenzbilder, erhöht die Flexibilität der Videoerstellung.
🔍 Semantische Fusionstechnologie stellt sicher, dass die Elemente aus mehreren Bildern im Video hochkonsistent bleiben.
🔄 Mehrfache Konsistenztechnik ermöglicht ein kohärentes visuelles Erlebnis in komplexen Szenen.

7. Apple entwickelt einen AI-ChatGPT-artigen Kundenbetreuungsassistenten, um die Nutzererfahrung zu verbessern

Apple arbeitet an einem künstlich intelligenten „Support-Assistenten“, der dazu dienen soll, den Kundenservice intelligenter und effizienter zu machen. Diese Funktion wurde in den Code der Apple Support-Anwendung gefunden und wird in Zukunft es Benutzern ermöglichen, vor dem Kontakt mit dem Kundendienst Lösungen, die von KI generiert wurden, zu erhalten und die Serviceeffizienz zu erhöhen.

【AiBase-Zusammenfassung:】
🍎 Apple entwickelt einen KI-basierten Support-Assistenten, um die Effizienz des Kundenservices zu verbessern.
💬 Benutzer können vor dem Kontakt mit dem Kundendienst Lösungen, die von KI generiert wurden, erhalten, um Wartezeiten zu reduzieren.
🔄 Der Support-Assistent könnte das Hochladen von Dateien ermöglichen und die Interaktion bereichern.

8. Feishu veröffentlicht mehrere KI-Produkte, um eine „Doubao“-Lösung für Unternehmen zu schaffen

Feishu veröffentlichte mehrere KI-Produkte, einschließlich Wissensfragen, KI-Meetings, Aily, Feishu Miaoda usw., um die Implementierung von KI in unternehmensspezifischen Anwendungen zu beschleunigen. Gleichzeitig führte Feishu auch das erste AI-Anwendungsreife-Modell der Branche ein, um Unternehmen bei der Bewertung der tatsächlichen Auswirkungen von KI-Produkten zu unterstützen.

【AiBase-Zusammenfassung:】
🚀 Feishu veröffentlichte mehrere KI-Produkte, um Unternehmen bei der Implementierung der Intelligentisierung zu unterstützen.
📊 Veröffentlichte ein KI-Anwendungsreife-Modell, um die Fähigkeit von Unternehmen zur Bewertung von KI-Produkten zu verbessern.
📈 Die Leistungsfähigkeit von Feishu Multidimensionalen Tabellen und KI-Fähigkeiten hat einen großen Sprung gemacht und unterstützt die Verarbeitung großer Datenmengen.

9. Microsoft, OpenAI und Anthropic gründen gemeinsam eine Bildungsarbeiter-KI-Schule

Der American Federation of Teachers (AFT) gründete gemeinsam mit Microsoft, OpenAI und Anthropic eine nationale Akademie für künstliche Intelligenz, um Lehrkräften kostenlose KI-Tools-Training anzubieten, um sie dabei zu unterstützen, künstliche Intelligenz-Technologien besser zu nutzen. Dieses Projekt erhält finanzielle Unterstützung von 23 Millionen US-Dollar und fördert die technologische Veränderung im Bildungsbereich.

【AiBase-Zusammenfassung:】
👩‍🏫 Lehrkräfte werden durch KI-Schulungen neue Technologien erlernen, um ihre dominante Rolle im Bildungswesen sicherzustellen.
💰 Microsoft, OpenAI und Anthropic stellen 23 Millionen US-Dollar Finanzierung für das KI-Bildungsprojekt zur Verfügung.
📚 Die KI-Akademie strebt nach dem Bildungsdemokratisierung und stellt sicher, dass die Technologie für Schüler und Lehrer nutzbar ist.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

AI-Tageszeitung: Alibaba Tongyi veröffentlicht den offenen Audio-Generationsmodell ThinkSound; Google Veo3 erzeugt Bilder zu Videos; Feishu stellt eine Reihe neuer AI-Produkte vor

站长之家

Dieser Artikel stammt aus dem AIbase-Tagesbericht