Willkommen bei der Serie „AI Daily“! Dies ist Ihr Leitfaden für die tägliche Erkundung der Welt der künstlichen Intelligenz. Jeden Tag präsentieren wir Ihnen die aktuellen Themen aus dem Bereich KI, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu verstehen und innovative Anwendungen von KI-Produkten kennenzulernen.

Frische KI-Produkte klicken Sie hier:https://top.aibase.com/

1. ByteDance veröffentlicht das End-to-End-Übersetzungsmode ll Seed LiveInterpret 2.0

Das Seed-Team von ByteDance hat seine neueste Entwicklung – Seed LiveInterpret 2.0 – vorgestellt. Das Modell erreicht eine führende Qualität in der chinesisch-englischen Simultandolmetschleistung, verfügt über eine geringe Latenz und Funktion zur Echtzeit-Sprachwiederherstellung, wodurch die Natürlichkeit und Flüssigkeit der interkulturellen Kommunikation erheblich verbessert wird.

image.png

【AiBase-Zusammenfassung:】

🚀 Seed LiveInterpret 2.0 erreicht eine Übersetzungspräzision, die fast der eines menschlichen Dolmetschers entspricht, mit extrem niedriger Verzögerung von nur 3 Sekunden.

🎙️ Es unterstützt die Funktion der Echtzeit-Sprachwiederherstellung, ohne dass vorherige Stimmenproben erforderlich sind, um „Originalstimmen“-Sprachübersetzungen zu synthetisieren.

📊 In professionellen Bewertungen schneidet Seed LiveInterpret 2.0 bei chinesisch-englischen Übersetzungsaufgaben sehr gut ab und erreicht deutlich höhere Bewertungen als andere Systeme.

Weitere Informationen: https://arxiv.org/pdf/2507.17527

2. Der API-Service von Mistral Search wird eingeführt: Preis 3 Cent, bietet Multimodal-Suchfähigkeit

Mistral AI Search hat seinen Such-API-Dienst offiziell eingeführt, der Entwicklern eine neue Alternative zum Bing Search API bietet. Der API kostet 0,03 Yuan pro Abfrage, unterstützt Multimodal-Suche und hat keine Nutzungshürden, was eine schnelle Integration ermöglicht.

image.png

【AiBase-Zusammenfassung:】

✅ Der Mistral AI Search API ist offiziell gestartet und bietet Entwicklern eine neue Suche-Alternative.

💡 Der Preis beträgt 0,03 Yuan pro Abfrage und ist marktweit konkurrenzfähig, mit Unterstützung für Multimodal-Suche.

🚀 Entwickler können den Dienst sofort testen, ohne komplexe Anträge, was die Integration effizienter macht.

3. Lovart AI vollständige Version global veröffentlicht: Vollständig intelligente Design-Revolution verändert die Kreativitätserfahrung

Der Artikel beschreibt die globale Veröffentlichung der vollständigen Version von Lovart AI und betont deren Innovation als erstes künstliches Intelligenz-Agent. Mit natürlicher Sprachinteraktion und umfassenden Designfähigkeiten definiert es neue Standards in der Designbranche. Der Artikel erwähnt auch seine neuen Funktionen wie ChatCanvas und den „Xingliu Agent“ für den chinesischen Markt, sowie den tiefgreifenden Einfluss auf die Designbranche.

image.png

【AiBase-Zusammenfassung:】

🎨 Lovart AI bietet mit natürlicher Sprachinteraktion und umfassenden Designfähigkeiten Dienste zur Erzeugung hochwertiger visueller Assets.

🧠 Neue Funktion ChatCanvas unterstützt mehrere Dialogrunden und Echtzeit-Anpassungen von Layouts und Farben, um die Kreativitäts-effizienz zu steigern.

🇨🇳 Der „Xingliu Agent“, optimiert für den chinesischen Markt, unterstützt chinesische Semantik und nationale Ästhetik und hilft lokalen Kreativen effizienter zu arbeiten.

4. Li Mu’s Team veröffentlicht Higgs Audio v2, ein neues Zeitalter der Sprachsynthese

Das von Li Mu’s Team veröffentlichte Higgs Audio v2 ist ein großer Durchbruch im Bereich der Sprachsynthese, mit Funktionen wie multilingualer Dialoggenerierung, automatischer Rhythmusanpassung und Voice Cloning. Das Modell wurde mit 10 Millionen Stunden Sprachdaten trainiert und zeigte in verschiedenen Tests hervorragende Ergebnisse, wodurch es zum Branchenstandard wurde.

image.png

【AiBase-Zusammenfassung:】

🔥 Higgs Audio v2 unterstützt multilinguale Dialoggenerierung und Voice Cloning und realisiert komplexe Aufgaben.

📊 In den EmergentTTS-Eval-Tests zeigte Higgs Audio v2 hervorragende Leistungen in Bezug auf Emotion und Fragekategorien.

🚀 Unterstützt Echtzeit-Sprachchat und Audio-Inhaltserstellung, geeignet für virtuelle Moderator und Sprachassistenten.

5. Sora2 kommt ans Licht: OpenAI will im Bereich generativer KI-Videos wieder die Nummer eins werden

Der Artikel beschreibt, wie OpenAI an seinem Text-zu-Video-Modell Sora weiterentwickelt, und erwähnt zudem die Verbreitung von Google Veo3. Dies zeigt, dass der Wettbewerb im Bereich generativer KI-Videos noch intensiver werden wird.

image.png

【AiBase-Zusammenfassung:】

🚀 OpenAI entwickelt aktiv Sora2, um dem Wettbewerb mit Google Veo3 zu begegnen.

💡 Sora2 ist noch nicht öffentlich, aber in den nächsten Wochen könnten weitere Informationen folgen.

🌐 Google Veo3 ist kostenlos für Studenten zugänglich und kann über Google Cloud genutzt werden.

6. OpenAI und Oracle kooperieren, um das Stargate-Projekt zu erweitern, haben bereits tausende Arbeitsplätze geschaffen

OpenAI und Oracle haben einen neuen Vertrag abgeschlossen, um die Kapazität des Stargate-Projekts in den US-Rechenzentren auf 4,5 Gigawatt zu erhöhen, wobei die Gesamtkapazität über 5 Gigawatt liegt. Dies ist ein wichtiger Schritt, um das Ziel von 10 Gigawatt bis 2029 zu erreichen. Das Projekt zielt darauf ab, die USA als führenden Standort für die globale Entwicklung künstlicher Intelligenz zu etablieren und hat die Beteiligung zahlreicher Technologieunternehmen und internationaler Investoren gewonnen.

image.png

【AiBase-Zusammenfassung:】

🔥 Die Kapazität des Stargate-Projekts wurde auf über 5 Gigawatt erhöht, mit dem Ziel, bis 2029 10 Gigawatt zu erreichen.

🤝 OpenAI kooperiert mit Oracle und anderen Technologieunternehmen, um das Projekt voranzutreiben, was über 100.000 Arbeitsplätze schaffen wird.

💰 Das Projekt hat über 19 Milliarden Dollar Finanzierung erhalten und hat die Teilnahme vieler internationaler Investoren gewonnen.

7. Google Photos fügt AI-Funktionen hinzu: Fotos werden in Anime umgewandelt und Videos werden in einem Klick erstellt

Google Photos hat mehrere neue AI-basierte Funktionen eingeführt, darunter die Umwandlung statischer Fotos in dynamische Videos sowie kreative Werkzeuge zur Umwandlung von Fotos in verschiedene Kunststile. Diese Funktionen sollen die Kreativitätserfahrung der Nutzer verbessern und durch experimentelle Methoden kontinuierlich optimiert werden.

image.png

【AiBase-Zusammenfassung:】

📷 Das Foto-in-Video-Feature nutzt das Veo2-Modell, um statische Fotos in 6 Sekunden in dynamische Videos zu verwandeln.

🎨 Das Remix-Feature wird von Imagen AI getrieben und verwandelt normale Fotos in Anime- und Comic-Stile.

📌 Google hat in der Photos-App eine neue „Erstellen“-Seite hinzugefügt, die verschiedene kreative Tools integriert und eine einheitliche Kreativitäts-Erfahrung bietet.

8. YouTube Shorts wird neue AI-Effekte einführen: Fotos werden in Sekunden in Videos umgewandelt!

YouTube gab bekannt, dass eine Reihe revolutionärer generativer AI-Funktionen für Shorts-Entwickler geöffnet werden, einschließlich Bild-zu-Video-Umwandlung und AI-Effekte. Diese Tools können statische Fotos in dynamische Videos umwandeln und bieten verschiedene kreative Optionen, was die Kreativitätsebene erheblich senkt und die Inhalte attraktiver macht.

image.png

【AiBase-Zusammenfassung:】

📷 Das Bild-zu-Video-Feature bringt statischen Fotos in 6 Sekunden Leben, um die Effizienz der Kurzvideo-Erstellung zu steigern.

🎨 AI-Effekte können Skizzen, Selfies usw. in kunstvoll gestaltete Werke verwandeln und die Kreativität der Entwickler inspirieren.

🎥 Der neue Veo3-Video-Generator erzeugt gleichzeitig Audios, um eine komplette Lösung für die Kreation zu bieten.

9. Google stellt Aeneas-Modell vor: Neuer Weg zur Interpretation antiker Texte

Das von Google vorgestellte Aeneas-Modell bietet eine völlig neue Methode zur Interpretation antiker Inschriften, indem es künstliche Intelligenztechnologie verwendet, um die Arbeit der Historiker bei der Wiederherstellung, Identifizierung und Datierung von Inschriften zu beschleunigen. Gleichzeitig kann es auf andere antike Sprachen und Materialien ausgeweitet werden und erhöht damit erheblich die Effizienz und Tiefe der historischen Forschung.

image.png

【AiBase-Zusammenfassung:】

🧠 Das Aeneas-Modell wurde von Google DeepMind entwickelt, um Historikern bei der Interpretation antiker Texte zu helfen.

🗣️ Das Modell kann die Ähnlichkeit antiker Texte analysieren, Lücken in Texten füllen und die Belastung der Historiker verringern.

📜 Aeneas wandelt Texte in „historische Fingerabdrücke“ um, um Historikern zu helfen, Inschriften in einem breiteren Kontext zu interpretieren.

Weitere Informationen: https://deepmind.google/discover/blog/aeneas-transforms-how-historians-connect-the-past/

10. GitHub Spark erscheint: Eine Zeile Code für Web-Anwendungen, die Ära der KI-Entwicklung beginnt!

GitHub Spark ermöglicht es Entwicklern und Nicht-Entwicklern, mit Hilfe von Natural Language Processing (NLP) schnell individuelle Web-Anwendungen zu erstellen, was die Programmierbarkeit erheblich reduziert und neue Möglichkeiten für Micro-Apps bietet.

image.png

【AiBase-Zusammenfassung:】

🌟 GitHub Spark ermöglicht es Benutzern, durch natürliche Sprache ihre Anforderungen zu beschreiben und so ganze Web-Anwendungen schnell zu generieren.

🚀 Es bietet einen vollständig verwalteten Laufzeitumgebung, unterstützt eine One-Click-Bereitstellung und PWA-Unterstützung, um den Entwicklungsprozess zu vereinfachen.

🔧 Es unterstützt die Auswahl mehrerer Modelle und ist tief in die GitHub-Ökologie integriert, um die Entwicklungsproduktivität zu steigern.

Weitere Informationen: https://github.blog/changelog/2025-07-23-github-spark-in-public-preview-for-cop ilot-pro-subscribers/

11. Huawei M-Pencil Pro wird veröffentlicht: 699 Yuan, unterstützt einen Klick zur Aktivierung des intelligenten Assistenten Xiaoyi

Der Huawei M-Pencil Pro, eine neue Generation von Stift, wird für 699 Yuan veröffentlicht. Er verfügt über eine Druckempfindlichkeit von 16384 Stufen, eine Seitenrotation-Funktion und verschiedene Stiftspitzen. Zudem unterstützt er KI-Funktionen und die „Starlight“-Präzisionsfunktion, um Kreativen eine bequemere und realistischere Kreativitätserfahrung zu bieten.

image.png

【AiBase-Zusammenfassung:】