Tägliche Nachrichten: Neue Vorschriften für KI-Inhalte treten in Kraft; Meituan stellt ein Open-Source-Modell namens LongCat vor; Step-Audio 2 mini, ein Sprach-Modell von Step, wird veröffentlicht

站长之家

Veröffentlicht amKI-Nachrichten und -Informationen · 12 Minuten Lesezeit · Sep 1, 2025

Willkommen bei der Serie „AI Daily“! Hier ist Ihr tägliches Leitfaden für die Exploration der Welt der künstlichen Intelligenz. Jeden Tag präsentieren wir Ihnen die aktuellen Themen aus dem Bereich der künstlichen Intelligenz, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu verstehen und innovative Anwendungen künstlicher Intelligenz kennenzulernen.

Frische KI-Produkte klicken Sie hier für mehr Informationen:https://app.aibase.com/zh

1. Step-Audio 2 mini – ein leistungsstarker Open-Source-Modell für Sprachverarbeitung

Step Star hat den stärksten Open-Source-End-to-End-Sprachmodell namens Step-Audio 2 mini veröffentlicht. Dieser Modell erzielte SOTA-Ergebnisse in mehreren internationalen Benchmarks und zeigte hervorragende Fähigkeiten im Audio-Verständnis, Spracherkennung, Sprachübersetzung und Dialogfähigkeit. Der Modell verwendet eine innovative Architektur, überwindet die traditionelle ASR+LLM+TTS-Struktur und ermöglicht direkte Umwandlung von Original-Audiosignalen in Sprachantworten. Zudem wurde eine kombinierte Optimierung mit Ketten-Logik-Reasoning und Verstärkendem Lernen eingeführt, um das Verständnis und die natürliche Antwort auf sekundäre Sprache zu verbessern.

【AiBase Zusammenfassung:】
🔥 Step-Audio 2 mini erzielte in mehreren internationalen Benchmarks SOTA-Ergebnisse und übertreffen Modelle wie Qwen-Omni und Kimi-Audio.
🧠 Der Modell nutzt eine echte End-to-End-Multimodal-Architektur, die die traditionelle ASR+LLM+TTS-Struktur überwindet, was zu einer einfacheren und geringeren Latenz bei der Audioverarbeitung führt.
💡 Die Einführung von Ketten-Logik-Reasoning und Verstärkendem Lernen verbessert das Verständnis und die natürliche Antwort auf sekundäre Sprache wie Emotionen, Tonfall und Musik.
Weitere Informationen: https://github.com/stepfun-ai/Step-Audio2

2. Neue Vorschriften für KI-Inhalte ab dem 1. September in Kraft!

Die „Vorschrift zur Kennzeichnung von künstlich generierten und synthetischen Inhalten“ tritt am 1. September verpflichtend in Kraft und markiert einen neuen Schritt in der institutionellen und standardisierten Regulierung der KI-Inhalte in China. Die neuen Vorschriften verlangen, dass alle künstlich generierten Inhalte explizit und implizit gekennzeichnet werden, um die Transparenz der Informationen zu erhöhen und die Verbreitung von Falschinformationen zu verhindern.

【AiBase Zusammenfassung:】
✅ Explizite Kennzeichnung erfordert, dass künstlich generierte Inhalte in Text, Bildern, Videos und Audios deutlich markiert werden, um die Unsichtbarkeit von KI-Inhalten zu brechen.
🔍 Implizite Kennzeichnung verankert digitale Fingerabdrücke in Metadaten, um die Nachverfolgbarkeit und die Regulierungskapazität zu verbessern.
⚖️ Schwere Folgen bei Verstößen, einschließlich Einschränkung, Korrektur, Abmeldung und rechtlicher Risiken, die die normierte Entwicklung der KI-Industrie fördern.

3. Meituan stellt den Open-Source-Modell LongCat vor: Ziel ist es, Entwicklern zu unterstützen und die Implementierung von KI-Anwendungen zu beschleunigen

Meituan hat den Open-Source-Modell LongCat vorgestellt, der starke technische Fähigkeiten besitzt und durch eine innovative Architektur der gemischten Experten effiziente Rechenleistung erreicht. Er zeigt sich in verschiedenen Benchmarks als stark und bietet Entwicklern ein mächtiges Werkzeug.

【AiBase Zusammenfassung:】
🧠 LongCat-Flash verfügt über 56 Milliarden Parameter und nutzt eine gemischte Expertenarchitektur (MoE), um dynamisch bestimmte Parameter zu aktivieren und die Berechnungseffizienz zu optimieren.
🚀 Es unterstützt eine Verarbeitungsgeschwindigkeit von über 100 Tokens pro Sekunde und bietet niedrige Latenz und hohe Skalierbarkeit.
📊 In Aufgaben wie MMLU und mathematischer Schlussfolgerung zeigt sich seine Stärke und demonstriert sein Potenzial in praktischen Anwendungen.
Weitere Informationen: https://longcat.chat/

4. Shanghai AI Lab veröffentlicht Multimodal-Modell InternVL3.5

Das Shanghai AI Lab hat das Multimodal-Modell InternVL3.5 veröffentlicht. Durch innovative kaskadierte Verstärkungslernen, dynamische visuelle Auflösungswege und getrennte Deployment-Architekturen hat es die Leistungsfähigkeit beim Inferenzprozess, die Effizienz des Deployments und die Allgemeinheit vollständig verbessert. Das Modell zeigt gute Ergebnisse in verschiedenen Benchmarks und übertrifft Mainstream-Modelle wie GPT-5 und Claude-3.7-Sonnet.

【AiBase Zusammenfassung:】
✨ InternVL3.5 nutzt ein kaskadiertes Verstärkungslern-Framework, das die Inferenzleistung signifikant steigert.
🖼️ Das Modell unterstützt verschiedene visuelle Auflösungen und optimiert die Reaktionsgeschwindigkeit.
🚀 Es bietet verschiedene Modellgrößen mit Parametern, um unterschiedliche Ressourcenanforderungen zu erfüllen.
Weitere Informationen: https://github.com/OpenGVLab/InternVL

5. Tencent ARC öffnet audio-Modell AudioStory: Generiert langes Audio mit einem großen Sprachmodell

Das AudioStory-Modell, das vom Team von Tencent ARC vorgestellt wurde, kombiniert großes Sprachmodell und Audio-Generierungstechnologie, um langes narrativen Audio mit strukturiertem und zeitlicher Konsistenz zu generieren. Das Modell zeigt ausgezeichnete Fähigkeiten in der Befehlsausführung und der Audioqualität und ist für verschiedene Szenarien wie Video-Untertitelung und langes Audio-Generieren geeignet.

【AiBase Zusammenfassung:】
🎧 AudioStory ist ein Modell zur Generierung langer narrativer Audio, das auf einem großen Sprachmodell basiert und verschiedene Audioaufgaben bewältigen kann.
📊 Das Modell besitzt eine starke Befehlsausführungs-Kapazität und kann kohärentes Audio-Narrativ generieren, um die Benutzererfahrung zu verbessern.
🛠️ Das Team hat bereits den Inferenzcode veröffentlicht und mehrere Anwendungsbeispiele gezeigt, wodurch seine Vorteile in der Video-Untertitelung und der Generierung langer Audio-Dateien sichtbar werden.
Weitere Informationen: https://github.com/TencentARC/AudioStory

6. OpenAI veröffentlicht GPT-realtime mit revolutionärer Sprach-IA

OpenAI hat das GPT-realtime-Sprachmodell vorgestellt, das bedeutende Fortschritte in Bezug auf Natürlichkeit und Emotionsexpression erzielt hat. Es kann präzise menschliche Tonhöhen, Emotionswellen und Sprechgeschwindigkeitsänderungen nachahmen. Das Modell verfügt nicht nur über Multi-Modal-Verarbeitungsfähigkeiten, sondern kann auch in Echtzeit seine Sprachstil anpassen, um verschiedene Szenarienbedürfnisse zu erfüllen, was eine revolutionäre Veränderung für die IA-Sprachinteraktion bringt.

【AiBase Zusammenfassung:】
🚀 GPT-realtime bietet eine bislang unerreichte natürliche Sprachinteraktionserfahrung und repliziert präzise menschliche Sprachdetails.
🧠 Das Modell verfügt über Multi-Modal-Verarbeitungsfähigkeiten und kombiniert Bild- und Sprachinformationen für eine umfassende Analyse und Antwort.
💡 Es unterstützt verschiedene Sprachstile und erfüllt personalisierte Sprachinteraktionsbedürfnisse in verschiedenen Szenarien.

7. Meta und UCSD veröffentlichen DeepConf: KI-Schlussfolgerung mit 99,9 % Genauigkeit und reduziertem Rechenkosten

Meta und die University of California, San Diego (UCSD) haben die DeepConf-Technologie entwickelt, die eine Genauigkeit von 99,9 % in schwierigen Schlussfolgerungsaufgaben erreicht und die Rechenkosten um 84,7 % reduziert. Diese Technologie ermöglicht es der KI, durch die Einführung eines „Konfidenzmechanismus“, dynamisch ihre Problemlösungsstrategie anzupassen und so die Schlussfolgerungseffizienz und -genauigkeit zu verbessern.

【AiBase Zusammenfassung:】
🔍 DeepConf-Technologie erreicht eine Genauigkeit von 99,9 % in schwierigen Schlussfolgerungsaufgaben.
💡 Die Rechenkosten wurden um 84,7 % reduziert und somit die Betriebskosten erheblich gesenkt.
🚀 Durch den „Konfidenzmechanismus“ kann die KI ihre Problemlösungsstrategie dynamisch anpassen und die Schlussfolgerungseffizienz verbessern.
Weitere Informationen: https://arxiv.org/abs/2508.15260

8. Musk bestätigt, dass xAI-Code-Bibliothek gestohlen wurde, ehemaliger Mitarbeiter wechselt zu OpenAI!

Musk bestätigte, dass die xAI-Code-Bibliothek gestohlen wurde. Der ehemalige Mitarbeiter Xuechen Li wird beschuldigt, Geschäftsgeheimnisse gestohlen und zu OpenAI gewechselt zu haben, was Aufmerksamkeit in der Technologiebranche auslöste.

【AiBase Zusammenfassung:】
💻 Der ehemalige Mitarbeiter Xuechen Li wird beschuldigt, Geschäftsgeheimnisse von xAI zu stehlen und zu OpenAI zu wechseln.
🔒 xAI bittet das Gericht, Li daran zu hindern, bei OpenAI zu arbeiten und die gestohlenen Daten zurückzugeben.
🚀 Li machte vor seinem Austritt fast 7 Millionen Dollar ab, was möglicherweise Kosten in Höhe von mehreren Milliarden Dollar für OpenAI sparen könnte.

9. Alibaba Qwen-Team veröffentlicht nächste Generation GUI-Automatisierungsfeld Mobile-Agent-v3 und GUI-Owl

Das Alibaba Qwen-Team hat zwei revolutionäre Produkte – Mobile-Agent-v3 und GUI-Owl – vorgestellt, die darauf abzielen, Herausforderungen bei der GUI-Automatisierung zu lösen. Diese Tools verbessern durch multimodale Modelle und kooperative Agenten die Fähigkeit zur Aufgabenerfassung und -ausführung und zeigen starke Fähigkeiten bei der Bearbeitung von Aufgaben über Plattformen, was einen bedeutenden Fortschritt in der allgemeinen GUI-Automatisierung von Alibaba darstellt.

【AiBase Zusammenfassung:】
🧠 GUI-Owl ist ein multimodales Agentenmodell, das von Alibaba vorgestellt wurde und Empfindung, Schlussfolgerung und Ausführung integriert, um komplexe GUI-Umgebungen zu adaptieren.
🤖 Mobile-Agent-v3-Framewerk realisiert kooperative Agenten, indem es Pläne dynamisch aktualisiert, um die Effizienz der Aufgabenausführung zu verbessern.
📊 Diese beiden Produkte zeigten sich in GUI-Automatisierungsbenchmarks stark und markieren einen wichtigen Durchbruch in der Automatisierungsbranche von Alibaba.
Weitere Informationen: https://arxiv.org/abs/2508.15144

10. Microsoft launcht Copilot Labs, erstes Experiment-Tool „Copilot Audio Expression“ online

Microsoft hat eine neue experimentelle KI-Zentrale namens Copilot Labs vorgestellt, die Nutzer dazu einlädt, an der Innovation und Entwicklung der KI teilzunehmen. Das erste Werkzeug ist „Copilot Audio Expression“, das Text in natürliche Sprachbegleittexte umwandel und emotionale und Geschichten-Modi unterstützt, um Nutzern eine hohe Kontrolle zu geben.

【AiBase Zusammenfassung:】

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

Die norwegische Robotikfirma 1X stellt den ersten humanoiden Haushaltsroboter Neo vor, der für 20.000 Dollar verkauft wird und eine monatliche Abonnementsgebühr von 499 Dollar hat. Der 1,68 Meter hohe Roboter ist speziell für Aufgaben wie Spülen und Aufräumen konzipiert und verwendet einen Modus mit KI und manueller Fernsteuerung, um komplexe Aufgaben zu erledigen.

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

AWS gab bekannt, in den nächsten sechs Jahren in Südkorea zusätzliche 5 Milliarden Dollar investieren zu wollen, um KI-Datenzentren auszubauen und mit der SK Gruppe ein großes Infrastrukturprojekt in Ulsan zu bauen. Die gesamte Investition in Südkorea wird insgesamt 12,6 Milliarden Dollar betragen und zeigt die strategische Bedeutung des südkoreanischen Marktes für AWS.

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Die schnelle Entwicklung der KI-Technologie führt zu Veränderungen in der Gaming-Branche. Generative KI bietet neue Chancen und Herausforderungen, weshalb Unternehmen wie Microsoft und Amazon ihre Ressourcen auf KI-Anwendungen umstecken. Die Reaktionen von Spielentwicklern sind unterschiedlich, und die Zukunft der Branche ist ungewiss.

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

Ding Xiang Vice-Präsident Li Liang betonte, dass KI leicht für die Erstellung von Gerüchten missbraucht werden kann. Die Plattform setzt aktiv KI-Technologie ein, um Gerüchte zu bekämpfen, und entwickelt ein 'Intelligentes System zur Bekämpfung von Gerüchten' und führt eine schnelle Suche im gesamten Netzwerk als Schwerpunkt der Arbeit in diesem Jahr durch.

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

Google Labs und DeepMind haben gemeinsam den KI-Tool Pomelli vorgestellt, der in den USA, Kanada, Australien und Neuseeland im öffentlichen Test betrieben wird. Dieses Tool richtet sich an kleine und mittlere Unternehmen und generiert durch intelligente Analyse des Website-Inhalts rasch soziale Medien-Marketingkampagnen, die zur Markenidentität passen, um die Marketingbarriere zu senken und professionelle Inhaltserschaffung zu ermöglichen. Die Kernfunktion besteht darin, den Unternehmens-DNA in drei Schritten aufzubauen.

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Zwei US-Senatoren haben das GUARD-Gesetz vorgeschlagen, das KI-Unternehmen verpflichtet, bei der Nutzung von Chatbots die Altersverifikation der Nutzer durchzuführen und Minderjährige unter 18 Jahren den Zugang zu verbieten. Das Gesetz bezieht sich auf die Sorgen von Eltern und Sicherheitsanwälten bezüglich des Einflusses der KI auf Kinder und zielt darauf ab, Minderjährige zu schützen.

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation

Adobe veröffentlicht das professionelle KI-Bildgenerationsmodell Firefly Image5 und erreicht durch eine Qualitätsschwelle von 'ausreichend' bis 'professionell'. Neue Funktionen umfassen native Ausgabe von 4 Millionen Pixeln, hierarchische Prompt-Editierung, benutzerdefinierte Kunststilmodelle und KI-generierte Audiospuren. Damit wird der KI-Workflow für Bilder, Videos und Audios abgeschlossen und der kreative Arbeitsablauf neu definiert.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Tägliche Nachrichten: Neue Vorschriften für KI-Inhalte treten in Kraft; Meituan stellt ein Open-Source-Modell namens LongCat vor; Step-Audio 2 mini, ein Sprach-Modell von Step, wird veröffentlicht

站长之家

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Studie zeigt auf: Die Nutzung von KI lässt uns kognitive Fähigkeiten überschätzen

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation

Empfohlene verwandte KI-Nachrichten

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Studie zeigt auf: Die Nutzung von KI lässt uns kognitive Fähigkeiten überschätzen

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation

GEO Services