Tagesbericht über KI: Google Gemini 3.0 Pro wird in kleinem Umfang bereitgestellt; Aishitechnology schließt eine Finanzierungsrunde der Stufe B+ über 100 Millionen Yuan ab; Baidu veröffentlicht ein Modell zur Dokumentenanalyse PaddleOCR-VL

站长之家

Veröffentlicht amKI-Nachrichten und -Informationen · 10 Minuten Lesezeit · Oct 17, 2025

Willkommen bei der Rubrik „AI Daily“! Hier ist Ihr Leitfaden für die tägliche Erkundung der Welt der künstlichen Intelligenz. Jeden Tag präsentieren wir Ihnen die aktuellen Themen aus dem Bereich KI, konzentrieren uns auf Entwickler und helfen Ihnen, technische Trends zu verstehen und innovative Anwendungen von KI-Produkten kennenzulernen.

Frische KI-Produkte klicken Sie hier:https://app.aibase.com/zh

1. Google Gemini 3.0 Pro wird in kleinem Umfang bereitgestellt: Verbesserte Schlussfolgerungsfähigkeiten, offizielle Veröffentlichung wahrscheinlich Ende dieses Monats

Das DeepMind-Team von Google beginnt mit der Bereitstellung des Gemini 3.0 Pro-Modells an einige Benutzer. Dieses Modell verfügt über verbesserte Fähigkeiten zur Schlussfolgerung und Multimodalverarbeitung und soll im Oktober endgültig veröffentlicht werden.

【AiBase-Zusammenfassung:】
🧠 Einführung des Deep Think-Reasoning-Architektur in Gemini 3.0 Pro, um die Fähigkeit zur Bearbeitung mehrschrittiger komplexer Aufgaben zu verbessern.
🌐 Unterstützung für verschiedene Eingabeformate wie Text, Bild, Audio und Video, sowie die Generierung vollständiger Frontend-Code.
🚀 Google plant den Ausbau einer leichtgewichtigen Flash-Variante, um die Anforderungen mobiler Geräte und Edge-Computing zu erfüllen.

2. Baidu veröffentlicht weltweit führendes Dokumentenanalysemodell PaddleOCR-VL und verändert das OCR-Technologie-Spiel!

Das PaddleOCR-VL-Modell von Baidu zeigt sich in der Dokumentenanalyse äußerst leistungsstark. Dank seiner leichten und effizienten Natur, Unterstützung für mehrere Sprachen und hoher Genauigkeit bei der Erkennung hat es sich als neuer Standard für OCR-Technologien etabliert.

【AiBase-Zusammenfassung:】
🌍 Unterstützt 109 Sprachen und eignet sich für verschiedene Dokumentenbearbeitungsaufgaben.
⚙️ Die Kernparameter betragen nur 0,9B, was eine effiziente Berechnung und präzise Erkennung ermöglicht.
🚀 Die Inferenzgeschwindigkeit wurde deutlich verbessert und schneidet besser ab als andere Hauptmodelle.

3. AI-Video-Firma Aishi Technology hat eine Finanzierungsrunde im Wert von 100 Millionen Yuan abgeschlossen: ARR übersteigt 40 Millionen US-Dollar, Nutzer über 100 Millionen

Aishi Technology hat bedeutende Fortschritte im Bereich der AI-Videoerzeugung erzielt und hat eine Finanzierungsrunde im Wert von 100 Millionen Yuan abgeschlossen. Dabei hat sie auch einen Meilenstein erreicht, bei dem der ARR über 40 Millionen US-Dollar stieg und die registrierten Nutzer über 100 Millionen lagen. Ihre Produktstrategie und Technologiefortschritte bieten dem Markt eine starke Wettbewerbsfähigkeit.

【AiBase-Zusammenfassung:】
🚀 Aishi Technology hat eine Finanzierungsrunde im Wert von 100 Millionen Yuan abgeschlossen, was die Anerkennung und Unterstützung durch den Kapitalmarkt zeigt.
📈 Der jährliche laufender Umsatz (ARR) übertraf 40 Millionen US-Dollar und die Nutzerzahl liegt über 100 Millionen.
💡 Technologische Innovationen sind stetig, wobei die PixVerse V5-Version die Effizienz und Qualität der Erzeugung verbessert und die Funktion des Agent-Creation-Assistenten einführt.

4. Anthropic stellt „skills“-Funktion für Claude vor: Steigerung der Effizienz von KI

Anthropic hat eine neue Funktion namens „skills“ für Claude AI vorgestellt, die darauf abzielt, die Praxistauglichkeit von KI in Arbeitsumgebungen zu verbessern. Diese Funktion bietet Anweisungen, Skripte und Ressourcen in Form von Ordnern, sodass Claude bestimmte Aufgaben wie Excel-Dokumente oder Markenleitfäden effizienter bearbeiten kann. Benutzer können zudem eigene Fähigkeiten erstellen und diese auf verschiedenen Plattformen nutzen. Diese Funktion steht im Zusammenhang mit OpenAI's AgentKit und markiert einen Schritt in Richtung Praxistauglichkeit im KI-Bereich.

【AiBase-Zusammenfassung:】
🌟 Anthropic hat die „skills“-Funktion für Claude vorgestellt, um die Praxistauglichkeit von KI in der Arbeit zu erhöhen.
🛠️ Benutzer können benutzerdefinierte Fähigkeiten erstellen, damit Claude besser auf spezifische Arbeitsumgebungen abgestimmt ist.
🚀 Dieser Schritt entspricht der Veröffentlichung von AgentKit durch OpenAI und zeigt, dass die KI-Branche kontinuierlich in Richtung Praxistauglichkeit voranschreitet.

5. Pinterest startet ein KI-Inhaltsbegrenzungstool: Nutzer können die Anzeige von generierten KI-Bildern selbst anpassen

Pinterest hat ein neues Inhaltskontrolltool eingeführt, das es Nutzern ermöglicht, den Anteil an KI-generierten Inhalten in ihrer Informationsflut zu begrenzen, um Unzufriedenheit der Nutzer zu bekämpfen. Das Unternehmen versucht, durch die Einführung von KI-Modifikationstags und nutzerfreundlichen Einstellungen ein Gleichgewicht zwischen KI-Innovation und Benutzererfahrung zu finden.

【AiBase-Zusammenfassung:】
🖼️ Nutzer können den Anzeigeanteil von generierten KI-Bildern selbst anpassen.
🤖 Pinterest hat KI-Modifikationstags eingeführt, um KI-generierte Inhalte zu kennzeichnen.
🌐 Pinterest sucht nach einem Kompromiss zwischen KI-Technologie und Benutzererfahrung.

6. LLaVA-OneVision-1.5, ein vollständig open-source-Multimodal-Modell, tritt mit einer Leistung auf, die Qwen2.5-VL übertrifft

LLaVA-OneVision-1.5 ist ein open-source-Multimodal-Modell, das in der Lage ist, verschiedene Eingaben wie Bilder und Videos zu verarbeiten und in mehreren Benchmark-Tests gute Ergebnisse erzielt, wodurch es Qwen2.5-VL übertrifft.

【AiBase-Zusammenfassung:】
🧠 LLaVA-OneVision-1.5 ist ein neues Multimodal-Modell, das in der Lage ist, verschiedene Eingabeformate wie Bilder und Videos zu verarbeiten.
📈 Der Trainingsprozess besteht aus drei Phasen, um die visuelle und sprachliche Verständnisfähigkeit des Modells effizient zu verbessern.
🏆 In Benchmark-Tests schnitt LLaVA-OneVision-1.5 gut ab und übertraf das Modell Qwen2.5-VL.
Weitere Informationen: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5 https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

7. OpenAI-Videogenerierungsmodell Sora 2 ist auf Microsoft Azure verfügbar: Preis pro Sekunde 0,1 Dollar, öffentlicher Vorschau-Modus

Microsoft kündigte an, dass das Sora2-Videogenerierungsmodell von OpenAI auf Azure AI Foundry International verfügbar ist und in den öffentlichen Vorschau-Modus geht. Dies markiert den Beginn der kommerziellen Anwendung von KI-basierten Videogenerierungstools.

【AiBase-Zusammenfassung:】
🎥 Sora2 ist ein multimodales Videogenerierungsmodell, das Text, Bilder und Videos als Eingabe akzeptiert und neue Videos generiert.
💰 Der Preis beträgt 0,1 Dollar pro Sekunde und erfolgt nach der Dauer der Generierung, was es für Unternehmensnutzer geeignet macht, um große Mengen zu nutzen.
🌐 Sora2 ist nur auf Azure AI Foundry International verfügbar, chinesische Nutzer können es aktuell nicht direkt nutzen.

8. Reisesuchmaschine Kayak stellt „AI-Modus“ für reibungslose Reiseplanung und Buchung vor

Kayak hat einen neuen „AI-Modus“ eingeführt, der mit einem integrierten Chatbot hilft, Reisen zu recherchieren, zu planen und zu buchen. Diese Funktion nutzt ChatGPT-Technologie, um Suchergebnisse mit Kontext zu liefern und unterstützt offene Fragen, um Reisevorschläge zu erhalten.

【AiBase-Zusammenfassung:】
🌍 Kayak hat den „AI-Modus“ eingeführt, mit dem Benutzer bequem Reisen planen und buchen können, indem sie einen Chatbot verwenden.
🗣️ Diese Funktion unterstützt die Frage nach Reisevorschlägen und den Vergleich verschiedener Reisedienste und liefert präzise Informationen mit Hilfe der ChatGPT-Technologie.
📅 Der „AI-Modus“ unterstützt zunächst nur Englisch und wird später auf mehr Sprachen und Plattformen ausgedehnt, außerdem wird eine Sprachanfrage-Funktion hinzugefügt.

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Das Sprachteam von Douyin stellt eine vollautomatische AI-Mehrpersonen-Hörspiel-Produktionsmethode vor, die Romane automatisch in Mehrpersonen-Sprecherspiele umwandeln kann. Die Genauigkeit der Rollenerkennung erreicht 98 % und ist mit dem Niveau professioneller Hörspiele vergleichbar, wodurch die Effizienz der Produktion von AI-Hörinhalten erheblich gesteigert wird.

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

Qualcomm hat zwei Cloud-AI-Inferring-Chips, AI200 und AI250, vorgestellt und plant deren kommerzielle Nutzung im Jahr 2026 bzw. 2027. Dies markiert den Übergang von Endgeräte-Chips zu einer vollständigen AI-Infrastruktur. Die Nachricht führte zu einem Anstieg des Aktienkurses um mehr als 20% an einem Tag und ist der größte Anstieg seit 2019. Im Gegensatz zur allseitigen Strategie von Nvidia konzentriert sich Qualcomm auf den Markt für große Modell-Inferring und betont die Vorteile der Energieeffizienz und Kosten.

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Bei der GTC-Messe 2025 stellte NVIDIA das Designkonzept 'Omniverse DSX Blueprint' für gigawattgroße AI-Rechenzentren vor und bezeichnete es als 'AI-Fabrik'. Dieses Konzept basiert auf dem Omniverse-Framework und unterstützt verschiedene Größen von 100 Millionen bis 1 Milliarde Watt. Es soll die effiziente Ausbildung und Ausführung großer KI-Modelle ermöglichen und den wachsenden Anforderungen an KI-Berechnungen gerecht werden. Es handelt sich um einen wichtigen Fortschritt in der Infrastruktur für künstliche Intelligenz.

Liu Li, vice-président de Douyin : La technologie d'IA aide à lutter contre la désinformation et à créer un environnement fiable sur la plateforme

L'Xinhua rapporte le problème des fausses nouvelles créées par l'intelligence artificielle. Liu Li, vice-président de Douyin, a répondu qu'une IA est un double tranchant : bien qu'elle puisse faciliter la désinformation, Douyin utilise l'intelligence artificielle pour lutter contre la désinformation, en développant des entités intelligentes qui recherchent rapidement les informations autorisées pour démentir les rumeurs.

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Das Doubao-Stimme-Team hat eine "automatisierte Produktion für AI-Mehrpersonen-Audio-Serien" vorgestellt, die die gesamte Produktionskette vom Roman-Text bis zum fertigen Hörspiel vollständig automatisiert. Keine Stimmenaufnahme, Schnitt oder menschliche Intervention erforderlich, was zu erheblichen Kosteneinsparungen und Effizienzsteigerungen führt. Das Ergebnis ist nahe an professionelles Niveau, wobei die Präzision der Rollenerkennung 98 % erreicht.

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

Ehemaliger Leiter der AI-Produkte bei ByteDance, Liu Liaoqian, gründete das Unternehmen 'Extremes Kontext' und konzentriert sich auf die Entwicklung eines Marketing-Multimodal-Agents. Dank seiner reichen Erfahrung im Bereich AIGC schloss er schnell eine Finanzierungsrunde von mehreren Millionen Dollar ab. Liu Liaoqian arbeitete zuvor bei Tencent und ByteDance und beschäftigte sich seit 2019 mit AIGC-Technologien, was Aufmerksamkeit in der Branche erregte.

360 veröffentlicht den weltweit ersten L2-L4-Stack-Intelligenzplattform! Die AI-Umstellung für Regierung und Unternehmen erreicht eine Ära des „Out-of-the-box“-Betriebs

Die 360 Gruppe veröffentlichte eine unternehmensrelevante Intelligenzplattform und stellte das weltweit erste Intelligenz-Betriebssystem vor, das L2 bis L4 abdeckt. Zudem wurde die SEAF-Intelligenzfabrik aktualisiert. Die Plattform zielt darauf ab, Regierungen und Unternehmen mit einer einheitlichen AI-Lösung zu versorgen und die Implementierung der Industrieanpassung von "0 auf 1" zu "1 auf 10" zu fördern.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Tagesbericht über KI: Google Gemini 3.0 Pro wird in kleinem Umfang bereitgestellt; Aishitechnology schließt eine Finanzierungsrunde der Stufe B+ über 100 Millionen Yuan ab; Baidu veröffentlicht ein Modell zur Dokumentenanalyse PaddleOCR-VL

站长之家

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

HYPERCLOUD stellt das erste interaktive AI-Podcast in China vor, bei dem Benutzer jederzeit Fragen stellen können

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Liu Li, vice-président de Douyin : La technologie d'IA aide à lutter contre la désinformation et à créer un environnement fiable sur la plateforme

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

360 veröffentlicht den weltweit ersten L2-L4-Stack-Intelligenzplattform! Die AI-Umstellung für Regierung und Unternehmen erreicht eine Ära des „Out-of-the-box“-Betriebs

Empfohlene verwandte KI-Nachrichten

HYPERCLOUD stellt das erste interaktive AI-Podcast in China vor, bei dem Benutzer jederzeit Fragen stellen können

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Liu Li, vice-président de Douyin : La technologie d'IA aide à lutter contre la désinformation et à créer un environnement fiable sur la plateforme

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

360 veröffentlicht den weltweit ersten L2-L4-Stack-Intelligenzplattform! Die AI-Umstellung für Regierung und Unternehmen erreicht eine Ära des „Out-of-the-box“-Betriebs

GEO Services