Willkommen bei der Rubrik „AI Daily“! Hier ist Ihr Leitfaden für die tägliche Erkundung der Welt der künstlichen Intelligenz. Jeden Tag präsentieren wir Ihnen die aktuellen Themen aus dem Bereich KI, konzentrieren uns auf Entwickler und helfen Ihnen, technische Trends zu verstehen und innovative Anwendungen von KI-Produkten kennenzulernen.

Frische KI-Produkte klicken Sie hier:https://app.aibase.com/zh

1. Google Gemini 3.0 Pro wird in kleinem Umfang bereitgestellt: Verbesserte Schlussfolgerungsfähigkeiten, offizielle Veröffentlichung wahrscheinlich Ende dieses Monats

Das DeepMind-Team von Google beginnt mit der Bereitstellung des Gemini 3.0 Pro-Modells an einige Benutzer. Dieses Modell verfügt über verbesserte Fähigkeiten zur Schlussfolgerung und Multimodalverarbeitung und soll im Oktober endgültig veröffentlicht werden.

image.png

【AiBase-Zusammenfassung:】

🧠 Einführung des Deep Think-Reasoning-Architektur in Gemini 3.0 Pro, um die Fähigkeit zur Bearbeitung mehrschrittiger komplexer Aufgaben zu verbessern.

🌐 Unterstützung für verschiedene Eingabeformate wie Text, Bild, Audio und Video, sowie die Generierung vollständiger Frontend-Code.

🚀 Google plant den Ausbau einer leichtgewichtigen Flash-Variante, um die Anforderungen mobiler Geräte und Edge-Computing zu erfüllen.

2. Baidu veröffentlicht weltweit führendes Dokumentenanalysemodell PaddleOCR-VL und verändert das OCR-Technologie-Spiel!

Das PaddleOCR-VL-Modell von Baidu zeigt sich in der Dokumentenanalyse äußerst leistungsstark. Dank seiner leichten und effizienten Natur, Unterstützung für mehrere Sprachen und hoher Genauigkeit bei der Erkennung hat es sich als neuer Standard für OCR-Technologien etabliert.

image.png

【AiBase-Zusammenfassung:】

🌍 Unterstützt 109 Sprachen und eignet sich für verschiedene Dokumentenbearbeitungsaufgaben.

⚙️ Die Kernparameter betragen nur 0,9B, was eine effiziente Berechnung und präzise Erkennung ermöglicht.

🚀 Die Inferenzgeschwindigkeit wurde deutlich verbessert und schneidet besser ab als andere Hauptmodelle.

3. AI-Video-Firma Aishi Technology hat eine Finanzierungsrunde im Wert von 100 Millionen Yuan abgeschlossen: ARR übersteigt 40 Millionen US-Dollar, Nutzer über 100 Millionen

Aishi Technology hat bedeutende Fortschritte im Bereich der AI-Videoerzeugung erzielt und hat eine Finanzierungsrunde im Wert von 100 Millionen Yuan abgeschlossen. Dabei hat sie auch einen Meilenstein erreicht, bei dem der ARR über 40 Millionen US-Dollar stieg und die registrierten Nutzer über 100 Millionen lagen. Ihre Produktstrategie und Technologiefortschritte bieten dem Markt eine starke Wettbewerbsfähigkeit.

image.png

【AiBase-Zusammenfassung:】

🚀 Aishi Technology hat eine Finanzierungsrunde im Wert von 100 Millionen Yuan abgeschlossen, was die Anerkennung und Unterstützung durch den Kapitalmarkt zeigt.

📈 Der jährliche laufender Umsatz (ARR) übertraf 40 Millionen US-Dollar und die Nutzerzahl liegt über 100 Millionen.

💡 Technologische Innovationen sind stetig, wobei die PixVerse V5-Version die Effizienz und Qualität der Erzeugung verbessert und die Funktion des Agent-Creation-Assistenten einführt.

4. Anthropic stellt „skills“-Funktion für Claude vor: Steigerung der Effizienz von KI

Anthropic hat eine neue Funktion namens „skills“ für Claude AI vorgestellt, die darauf abzielt, die Praxistauglichkeit von KI in Arbeitsumgebungen zu verbessern. Diese Funktion bietet Anweisungen, Skripte und Ressourcen in Form von Ordnern, sodass Claude bestimmte Aufgaben wie Excel-Dokumente oder Markenleitfäden effizienter bearbeiten kann. Benutzer können zudem eigene Fähigkeiten erstellen und diese auf verschiedenen Plattformen nutzen. Diese Funktion steht im Zusammenhang mit OpenAI's AgentKit und markiert einen Schritt in Richtung Praxistauglichkeit im KI-Bereich.

image.png

【AiBase-Zusammenfassung:】

🌟 Anthropic hat die „skills“-Funktion für Claude vorgestellt, um die Praxistauglichkeit von KI in der Arbeit zu erhöhen.

🛠️ Benutzer können benutzerdefinierte Fähigkeiten erstellen, damit Claude besser auf spezifische Arbeitsumgebungen abgestimmt ist.

🚀 Dieser Schritt entspricht der Veröffentlichung von AgentKit durch OpenAI und zeigt, dass die KI-Branche kontinuierlich in Richtung Praxistauglichkeit voranschreitet.

5. Pinterest startet ein KI-Inhaltsbegrenzungstool: Nutzer können die Anzeige von generierten KI-Bildern selbst anpassen

Pinterest hat ein neues Inhaltskontrolltool eingeführt, das es Nutzern ermöglicht, den Anteil an KI-generierten Inhalten in ihrer Informationsflut zu begrenzen, um Unzufriedenheit der Nutzer zu bekämpfen. Das Unternehmen versucht, durch die Einführung von KI-Modifikationstags und nutzerfreundlichen Einstellungen ein Gleichgewicht zwischen KI-Innovation und Benutzererfahrung zu finden.

image.png

【AiBase-Zusammenfassung:】

🖼️ Nutzer können den Anzeigeanteil von generierten KI-Bildern selbst anpassen.

🤖 Pinterest hat KI-Modifikationstags eingeführt, um KI-generierte Inhalte zu kennzeichnen.

🌐 Pinterest sucht nach einem Kompromiss zwischen KI-Technologie und Benutzererfahrung.

6. LLaVA-OneVision-1.5, ein vollständig open-source-Multimodal-Modell, tritt mit einer Leistung auf, die Qwen2.5-VL übertrifft

LLaVA-OneVision-1.5 ist ein open-source-Multimodal-Modell, das in der Lage ist, verschiedene Eingaben wie Bilder und Videos zu verarbeiten und in mehreren Benchmark-Tests gute Ergebnisse erzielt, wodurch es Qwen2.5-VL übertrifft.

image.png

【AiBase-Zusammenfassung:】

🧠 LLaVA-OneVision-1.5 ist ein neues Multimodal-Modell, das in der Lage ist, verschiedene Eingabeformate wie Bilder und Videos zu verarbeiten.

📈 Der Trainingsprozess besteht aus drei Phasen, um die visuelle und sprachliche Verständnisfähigkeit des Modells effizient zu verbessern.

🏆 In Benchmark-Tests schnitt LLaVA-OneVision-1.5 gut ab und übertraf das Modell Qwen2.5-VL.

Weitere Informationen: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5 https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

7. OpenAI-Videogenerierungsmodell Sora 2 ist auf Microsoft Azure verfügbar: Preis pro Sekunde 0,1 Dollar, öffentlicher Vorschau-Modus

Microsoft kündigte an, dass das Sora2-Videogenerierungsmodell von OpenAI auf Azure AI Foundry International verfügbar ist und in den öffentlichen Vorschau-Modus geht. Dies markiert den Beginn der kommerziellen Anwendung von KI-basierten Videogenerierungstools.

image.png

【AiBase-Zusammenfassung:】

🎥 Sora2 ist ein multimodales Videogenerierungsmodell, das Text, Bilder und Videos als Eingabe akzeptiert und neue Videos generiert.

💰 Der Preis beträgt 0,1 Dollar pro Sekunde und erfolgt nach der Dauer der Generierung, was es für Unternehmensnutzer geeignet macht, um große Mengen zu nutzen.

🌐 Sora2 ist nur auf Azure AI Foundry International verfügbar, chinesische Nutzer können es aktuell nicht direkt nutzen.

8. Reisesuchmaschine Kayak stellt „AI-Modus“ für reibungslose Reiseplanung und Buchung vor

Kayak hat einen neuen „AI-Modus“ eingeführt, der mit einem integrierten Chatbot hilft, Reisen zu recherchieren, zu planen und zu buchen. Diese Funktion nutzt ChatGPT-Technologie, um Suchergebnisse mit Kontext zu liefern und unterstützt offene Fragen, um Reisevorschläge zu erhalten.

image.png

【AiBase-Zusammenfassung:】

🌍 Kayak hat den „AI-Modus“ eingeführt, mit dem Benutzer bequem Reisen planen und buchen können, indem sie einen Chatbot verwenden.

🗣️ Diese Funktion unterstützt die Frage nach Reisevorschlägen und den Vergleich verschiedener Reisedienste und liefert präzise Informationen mit Hilfe der ChatGPT-Technologie.

📅 Der „AI-Modus“ unterstützt zunächst nur Englisch und wird später auf mehr Sprachen und Plattformen ausgedehnt, außerdem wird eine Sprachanfrage-Funktion hinzugefügt.