Willkommen bei der Rubrik „AI-Tagesbericht“! Hier ist Ihr Leitfaden für die tägliche Exploration der Welt der Künstlichen Intelligenz. Jeden Tag präsentieren wir Ihnen die aktuellen Themen aus dem Bereich KI, konzentrieren uns auf Entwickler und helfen Ihnen, technische Trends zu verstehen und innovative Anwendungen von KI-Produkten kennenzulernen.

Frische KI-Produkte klicken Sie hier:https://app.aibase.com/zh

1. Alibaba Cloud stellt den weltweit ersten vollständig multimodalen KI-Modell Qwen3-Omni vor, der Text, Bilder, Audio und Video einheitlich verarbeiten kann

Alibaba Cloud hat Qwen3-Omni vorgestellt, das der weltweit erste native end-to-end multimodale KI-Modell ist, das Text, Bilder, Audio und Video einheitlich verarbeiten kann. Dieses Modell zeigt in verschiedenen Bereichen beeindruckende Leistungen im Hinblick auf multimodale Fähigkeiten und ist open source, um den multilingualen Bedürfnissen globaler Nutzer gerecht zu werden.

image.png

【AiBase-Zusammenfassung:】

🌟 Qwen3-Omni ist der weltweit erste native end-to-end multimodale KI-Modell, der Text, Bilder, Audio und Video einheitlich verarbeiten kann.

🌐 Das Modell unterstützt 119 Textsprachen und 19 Spracheingaben und kann den multilingualen Bedürfnissen globaler Nutzer gerecht werden.

🖼️ Die neu veröffentlichte Qwen-Image-Edit-2509 unterstützt mehrere Bildbearbeitungen und verbessert deutlich die Konsistenz und Qualität der Bearbeitung.

Weitere Informationen: https://github.com/QwenLM/Qwen3-Omni huggingface: https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

2. Verabschieden Sie sich von den Problemen mit Bildbearbeitung! Mit der neuen Funktion zur mehrfachen Bildbearbeitung von Qwen-Image können Sie professionelle Werbefilme in einem Schritt erstellen

Der Artikel beschreibt eine große Funktionsverbesserung des AI-Bildbearbeitungstools Qwen-Image der Alibaba Group, einschließlich der Einführung der mehrfachen Bildbearbeitungsfunktion, der Implementierung der ControlNet-Punkt-Karten-Technologie sowie der Erweiterung der Anwendungsbereiche auf Memes, was für die E-Commerce- und Digital-Marketing-Branche effizientere Lösungen bietet.

image.png

【AiBase-Zusammenfassung:】

🖼️ Neue Funktion zur mehrfachen Bildbearbeitung, die flexible Kombinationen wie Mensch + Mensch, Mensch + Produkt, Mensch + Szene ermöglicht.

⚙️ Einführung der ControlNet-Punkt-Karten-Funktion, um die Genauigkeit der Körperhaltungskontrolle zu verbessern.

🛒 Erweiterung der Anwendungsbereiche, Unterstützung für Meme-Erstellung, um den E-Commerce- und Marketing-Bereich zu unterstützen.

Weitere Informationen: https://chat.qwen.ai/?inputFeature=image_edit

3. Baidu lanciert den Qianfan-VL-Modell, der verschiedene Größen für unterschiedliche Szenarien bietet

Das Team „Qianfan“ der Baidu Intelligent Cloud hat ein neues visuelles Verständnismodell namens Qianfan-VL vorgestellt. Dieses Modell besteht aus drei Größen (3B, 8B und 70B) und wurde tiefgreifend optimiert für geschäftliche Multimodal-Anwendungen. Qianfan-VL zeigt ausgezeichnete Leistungen in OCR, Bildungs-Szenarien und mathematischer Problemlösung und demonstriert herausragende allgemeine Fähigkeiten sowie exzellente Ergebnisse bei spezifischen Aufgaben in Benchmark-Tests.

image.png

【AiBase-Zusammenfassung:】

🧠 Mehrere Modellgrößen, die den unterschiedlichen Szenarien entsprechen.

📊 8B- und 70B-Modelle verfügen über Denk- und Schlussfolgerungsfähigkeiten.

📄 OCR und Dokumentenverständnis zeigen hervorragende Leistungen.

Weitere Informationen: https://baidubce.github.io/Qianfan-VL/

4. Google veröffentlicht AP2-Protokoll, zusammen mit PayPal neue Ära der KI-Zahlung

Das von Google veröffentlichte AP2-Protokoll bietet einen sicheren und zuverlässigen Rahmen für KI-Zahlungen und stellt durch die Mechanik der autorisierten Tokens sicher, dass Transaktionen legal und sicher sind. Gleichzeitig fördert die Zusammenarbeit mit PayPal die Innovation und Anwendung von KI im Zahlungsbereich.

image.png

【AiBase-Zusammenfassung:】

🛒 Das AP2-Protokoll bietet eine sichere Autorisierungsmechanik für KI-Zahlungen und gewährleistet die Legalität der Transaktionen.

🤝 Google und PayPal kooperieren, um die praktische Anwendung von KI im Zahlungsbereich zu fördern.

🔒 Das Autorisierungstoken-System definiert die Verantwortung klar und erhöht die Transparenz der Transaktionen.

Weitere Informationen: https://github.com/google-agentic-commerce/AP2

5. Apple erweitert die Bildgenerationsplattform: Image Playground wird weitere Drittanbieter-KI-Modelle beinhalten

Apple hat in macOS Tahoe26, iPadOS26 und iOS26 eine wichtige Aktualisierung von Image Playground vorgenommen und hat ChatGPT als Bildgenerationsmodell eingeführt. Es ist geplant, zukünftig auch weitere Drittanbietermodelle wie Gemini2.5Flash Image von Google zu unterstützen.

image.png

【AiBase-Zusammenfassung:】

🍎 Apple erweitert Image Playground, um mehr Drittanbieter-KI-Modelle zu unterstützen, darunter OpenAI und Google's Gemini2.5Flash Image.

⚙️ Neue „Schätzung der Verzögerung“-Kennzahl und „Markenidentifikator“ zeigen, dass Apple die Modellauswahl optimiert.

🔒 Apple könnte eher mit externen Partnern zusammenarbeiten, anstatt direkte Open-Source-Modelle zu unterstützen, um die Sicherheit der Bildgenerierungstools zu gewährleisten.

6. Ein Klick und zur Lernmaschine! Baidu Search startet AI-Lernbegleiter

Baidu hat den AI-Lernbegleiter eingeführt, der mit KI-Technologie gewöhnliche Handys in Lerngeräte verwandelt und Schülern präzises Üben, Sprachtraining und andere Funktionen bietet, um Bildungsgerechtigkeit und Ressourcenverbreitung zu fördern.

image.png

【AiBase-Zusammenfassung:】

📚 Der AI-Lernbegleiter verwandelt gewöhnliche Handys in Lerngeräte mit KI-Technologie, um die Bildungsgerechtigkeit zu verbessern.

🗣️ Bietet Tools wie AI-Sprache, Essay-Korrektur usw., um individuelles Lernen der Schüler zu unterstützen.

🌍 Das Bildungsteam von Baidu nutzt Technologien wie Wenshi 4.5, um Ressourcen für die Bildung zu integrieren und zu verbreiten.

7. Der AI-Tabellenassistent von DingTalk ist offiziell gestartet: Eine Phrase generiert Tabellen, um eine Unternehmens-Plattform für KI-Anwendungen zu schaffen

DingTalk hat den AI-Tabellenassistenten eingeführt und hat den AI-Tabellenansatz in eine Anwendungs-Entwicklungsplattform für die KI-Ära weiterentwickelt. Benutzer müssen nur die neueste Version aktualisieren, um diese neue Funktion zu genießen. Der AI-Tabellenassistent unterstützt natürliche Sprachbeschreibungen von Ideen, generiert automatisch Tabellen, automatisierte Arbeitsabläufe und Datenanalyse-Tableaus und senkt damit stark den Zugangsschwierigkeiten.

image.png

【AiBase-Zusammenfassung:】

✨ Der AI-Tabellenassistent unterstützt natürliche Sprachbeschreibungen von Ideen, generiert automatisch Tabellen, automatisierte Arbeitsabläufe und Datenanalyse-Tableaus.

🚀 Einführung von Feld-Agenten, neue 30 Agenten, Unterstützung für AI-Video-Verständnis, digitale Menschen und andere multimodale KI-Fähigkeiten.

🌐 Unterstützung für plattformübergreifende Arbeitsabläufe, neue Unterstützung für Arbeitsabläufe von Plattformen wie Bailian und Coze, um plattformübergreifende Datenzusammenfassung und Analyse zu realisieren.

8. DeepSeek-V3.1-Terminus wird groß herausgebracht: Leistung steigt erheblich, tiefe Inferenzfähigkeit wird deutlich gesteigert

DeepSeek hat den DeepSeek-V3.1-Terminus-Modell veröffentlicht und ihn open source gestellt. Das Modell behebt in der ursprünglichen Version Probleme mit unklaren Sprachmustern und fehlerhaften Zeichen, optimiert die Leistung von Programmier- und Suchagenten. Benchmark-Testdaten zeigen, dass die Leistung um 0,2 % bis 36,5 % gestiegen ist, besonders in anspruchsvollen Wissensbereichen, multimodalen und tiefen Inferenzszenarien.

image.png

【AiBase-Zusammenfassung:】

🧠 Der DeepSeek-V3.1-Terminus-Modell hat seine Leistung komplett verbessert, mit einer Steigerung von 0,2 % bis 36,5 %

🚀 Besonders optimiert die Leistung von Programmier- und Suchagenten und löste Probleme mit unklarer Sprache in der alten Version

🔍 In HLE-Tests zeigte es besonders gute Leistung und zeigte starke Tiefe-Inferenz- und multimodale Verarbeitungsfähigkeiten

Weitere Informationen: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

9. Kimi Agent-Mitgliedschaft erscheint überraschend! Spenden werden zu 9 Monaten VIP, 49 Yuan für einen wertvollen AI-Tiefenforschungs

Kimi hat eine neue Agent-Mitgliedschaftsleistung eingeführt, die frühen Spender-Nutzern zusätzliche Vorteile bietet, und durch das Musik-Rhythmus-namensystem der Mitgliedschaft zeigt die Marke Kreativität. Die Tiefenforschungsfunktion basiert auf einem eigenen Modell und bietet professionelle Einblicke, was die Entwicklung von AI-Helfern zu intelligenten Agenten vorantreibt.

image.png

【AiBase-Zusammenfassung:】

✨ Kimi stellte eine Agent-Mitgliedschaftsleistung vor, bei der Spender-Nutzer zusätzliche Mitgliedszeiten erhalten.

🎵 Das Mitgliedsystem wird mit klassischen Musikrhythmus-Begriffen benannt und verbindet Kunst und Technologie.

🔍 Die Tiefenforschungsfunktion basiert auf einem eigenen Modell und bietet vielseitige Meinungsanalysen und kognitive Entdeckungen.

10. Der weltweit erste allgemeine embodied intelligence-Modell wird open source! Zhiyuan Robot GO-1 überrascht

Zhiyuan Robotics gab bekannt, dass der GO-1-Modell für allgemeine embodied intelligence vollständig open source ist. Dies ist der weltweit erste embodied intelligence-Modell mit ViLLA-Architektur, das komplexe Aufgaben verstehen und ausführen kann. Diese Maßnahme wird die Anwendung und Forschung zu embodied intelligence vorantreiben, die technischen Schwierigkeiten reduzieren und mehr Entwickler anziehen, um am Ökosystem teilzunehmen und Innovation und Zusammenarbeit zwischen verschiedenen Bereichen zu fördern.

image.png

【AiBase-Zusammenfassung:】

🤖 GO-1 ist das weltweit erste embodied intelligence-Modell mit ViLLA-Architektur, das visuelle, sprachliche und potenzielle Aktionen kombiniert.

💡 Die Open-Source-GO-1 wird die Anwendung und Forschung zu embodied intelligence vorantreiben und die technischen Schwierigkeiten reduzieren.

🌐 Zhiyuan Robotics hofft, mehr Entwickler anzuziehen, um am embodied intelligence-Ökosystem teilzunehmen, um Innovation und Zusammenarbeit zwischen verschiedenen Bereichen zu fördern.