Bienvenue dans l'émission « Journal de l'IA » ! C'est votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus pertinentes du domaine de l'IA, en mettant l'accent sur les développeurs, afin que vous puissiez comprendre les tendances technologiques et découvrir les applications innovantes des produits d'IA.
Produits d'IA nouveaux Cliquez pour en savoir plus :https://app.aibase.com/zh
1. StepZen lance le modèle linguistique audio étape par étape Step-Audio 2 mini
StepZen a lancé le modèle linguistique audio étape par étape le plus puissant et le plus ouvert Step-Audio 2 mini. Il obtient des résultats SOTA (state-of-the-art) dans plusieurs tests internationaux, démontrant une excellente compréhension auditive, reconnaissance vocale, traduction multilingue et capacité de dialogue. Ce modèle utilise une conception architecturale innovante, brisant la structure traditionnelle ASR + LLM + TTS en trois étapes, permettant une conversion directe d'entrée audio à sortie vocale, et intègre un raisonnement en chaîne et une optimisation conjointe par renforcement pour améliorer la compréhension et la réponse naturelle des informations non verbales.

【Résumé d'AiBase :】
🔥 Step-Audio2mini obtient des résultats SOTA dans plusieurs tests internationaux, surpassant des modèles open source tels que Qwen-Omni et Kimi-Audio.
🧠 Le modèle utilise une architecture multimodale véritablement étape par étape, rompant avec la structure traditionnelle ASR + LLM + TTS, offrant un traitement audio plus simple et à faible latence.
💡 L'introduction du raisonnement en chaîne et de l'optimisation conjointe par renforcement améliore la compréhension et la réponse naturelle des informations non verbales telles que l'émotion, le ton et la musique.
Lien pour plus d'informations : https://github.com/stepfun-ai/Step-Audio2
2. Les nouvelles règles concernant le contenu AI entreront en vigueur le 1er septembre ! Ne pas identifier est illégal, 34 millions de créateurs de contenus réagissent rapidement
Le « Méthode d'identification du contenu généré et synthétisé par l'intelligence artificielle » entrera en vigueur le 1er septembre, marquant une nouvelle étape dans la régulation et la normalisation de la gouvernance du contenu AI en Chine. Les nouvelles règles exigent que tout contenu généré par l'IA soit identifié explicitement et implicitement pour augmenter la transparence de l'information et empêcher la propagation d'informations fausses.

【Résumé d'AiBase :】
✅ L'identification explicite exige que le contenu généré par l'IA soit clairement marqué dans le texte, les images, les vidéos et les sons, brisant ainsi la "magie" du contenu IA.
🔍 L'identification implicite intègre des techniques de filigrane numérique dans les métadonnées pour améliorer la traçabilité et la capacité de surveillance du contenu.
⚖️ Les conséquences de la violation sont graves, incluant la limitation de flux, la rectification, le retrait et les risques juridiques, favorisant le développement régulé de l'industrie de l'IA.
3. Meituan lance un grand modèle open source LongCat : visant à soutenir les développeurs et accélérer la mise en œuvre des applications AI
Meituan a lancé le grand modèle open source LongCat, doté d'une forte capacité technique, qui réalise des performances de calcul efficaces grâce à une architecture innovante de experts mixtes et s'est distingué dans plusieurs tests de référence, offrant aux développeurs un outil puissant.

【Résumé d'AiBase :】
🧠 LongCat-Flash dispose de 56 milliards de paramètres et utilise une architecture d'experts mixtes (MoE), activant dynamiquement certains paramètres pour optimiser l'efficacité du calcul.
🚀 Supporte une capacité de traitement de plus de 100 mots par seconde, possède une faible latence et une grande évolutivité.
📊 Montre des performances exceptionnelles dans les tâches MMLU et la raison mathématique, démontrant son potentiel dans les applications pratiques.
Lien pour plus d'informations : https://longcat.chat/
4. Shanghai AI Lab lance le modèle multimodal ShuSheng·WanXiang InternVL3.5
Shanghai AI Lab a lancé le modèle multimodal InternVL3.5, qui réalise une amélioration globale de la capacité de raisonnement, de l'efficacité de déploiement et de la capacité générale grâce à des technologies innovantes telles que l'apprentissage par renforcement en cascade, le routage de résolution visuelle dynamique et l'architecture de déploiement déconnecté. Ce modèle se distingue dans plusieurs tests de référence, surpassant des modèles dominants comme GPT-5 et Claude-3.7-Sonnet.

【Résumé d'AiBase :】
✨ InternVL3.5 utilise un cadre d'apprentissage par renforcement en cascade, améliorant significativement les performances de raisonnement.
🖼️ Le modèle supporte plusieurs résolutions visuelles et optimise la vitesse de réponse.
🚀 Offre plusieurs modèles avec différentes tailles de paramètres, répondant à différents besoins de ressources.
Lien pour plus d'informations : https://github.com/OpenGVLab/InternVL
5. Tencent ARC lance le modèle audio AudioStory : générer des audio longs à l'aide d'un grand modèle linguistique
Le modèle AudioStory développé par l'équipe Tencent ARC combine un grand modèle linguistique et une technologie de génération audio, capable de générer des narrations audio structurées et cohérentes dans le temps. Le modèle montre des performances exceptionnelles en termes de suivi d'instructions et de qualité audio, applicable à divers scénarios tels que la voix off de vidéos et la génération d'audio long.

【Résumé d'AiBase :】
🎧 AudioStory est un modèle de génération d'audio narratif long basé sur un grand modèle linguistique, capable de traiter plusieurs tâches audio.
📊 Le modèle possède une forte capacité de suivi d'instructions, pouvant générer des narrations audio cohérentes, améliorant ainsi l'expérience utilisateur.
🛠️ L'équipe a publié le code de déduction et présenté plusieurs cas d'application, montrant ses avantages dans la voix off de vidéos et la génération d'audio long.
Lien pour plus d'informations : https://github.com/TencentARC/AudioStory
6. OpenAI présente GPT-realtime ! La révolution de l'IA vocale arrive, les dialogues homme-machine sont indiscernables
Le modèle vocal GPT-realtime développé par OpenAI a réalisé des progrès majeurs en termes de fluidité naturelle et d'expression émotionnelle, capable de simuler précisément le ton humain, les variations d'émotion et la vitesse de parole. Le modèle n'a pas seulement une capacité de traitement multimodal, mais peut également ajuster dynamiquement le style vocal pour s'adapter aux différents scénarios, apportant une transformation révolutionnaire à l'interaction vocale entre l'homme et l'IA.

【Résumé d'AiBase :】
🚀 GPT-realtime offre une expérience d'interaction vocale naturelle sans précédent, reproduisant fidèlement les détails de la parole humaine.
🧠 Le modèle possède une capacité de traitement multimodal, combinant les informations visuelles et auditives pour une analyse et une réponse complètes.
💡 Il prend en charge le changement de style vocal, répondant aux besoins d'interactions vocales personnalisées dans différents scénarios.
7. Meta et UCSD lancent DeepConf : précision de 99,9 % pour l'inférence AI, coût de calcul réduit de 85 %
La technologie DeepConf développée par Meta et l'Université de Californie à San Diego (UCSD) a atteint une précision de 99,9 % dans les tâches d'inférence complexes, réduisant de 84,7 % la consommation de ressources informatiques. Cette technologie introduit un mécanisme de « confiance », permettant à l'IA d'ajuster dynamiquement sa stratégie de résolution de problèmes pour améliorer l'efficacité et la précision de l'inférence.

【Résumé d'AiBase :】
🔍 La technologie DeepConf atteint une précision de 99,9 % dans les tâches d'inférence complexes.
💡 La consommation de ressources informatiques est réduite de 84,7 %, diminuant considérablement les coûts de calcul.
🚀 Grâce au mécanisme de « confiance », l'IA peut adapter dynamiquement sa stratégie de résolution de problèmes pour améliorer l'efficacité de l'inférence.
Lien pour plus d'informations : https://arxiv.org/abs/2508.15260
8. Musk admet que le référentiel de code de xAI a été volé, un ancien employé passe chez OpenAI !
Musk a admis que le référentiel de code de xAI avait été volé, et un ancien employé, Xuechen Li, a été accusé de voler des secrets commerciaux et de passer chez OpenAI, ce qui a suscité une large attention dans le secteur technologique.

【Résumé d'AiBase :】
💻 L'ancien employé Xuechen Li a été accusé de voler les secrets commerciaux de xAI et de rejoindre OpenAI.
🔒 xAI a demandé au tribunal d'interdire à Li de travailler chez OpenAI et de rendre les données volées.
🚀 Avant de quitter, Li a retiré près de 7 millions de dollars, ce qui pourrait économiser des centaines de millions de dollars de frais de recherche et développement à OpenAI.
9. L'équipe Qwen d'Alibaba lance le cadre d'automatisation GUI de prochaine génération Mobile-Agent-v3 et GUI-Owl
L'équipe Qwen d'Alibaba a lancé deux produits révolutionnaires — Mobile-Agent-v3 et GUI-Owl — conçus pour résoudre les défis de l'automatisation des interfaces graphiques (GUI). Ces outils améliorent la capacité de compréhension et d'exécution des tâches grâce à des modèles multimodaux et à la collaboration d'agents multiples, montrant une forte capacité à terminer des tâches sur plusieurs plateformes, marquant ainsi un progrès important dans le domaine de l'automatisation GUI généralisée d'Alibaba.

【Résumé d'AiBase :】
🧠 GUI-Owl est un modèle d'agent multimodal lancé par Alibaba, intégrant des capacités de perception, de raisonnement et d'exécution, adapté à des environnements GUI complexes.
🤖 Le cadre Mobile-Agent-v3 permet une collaboration d'agents multiples, améliorant l'efficacité de l'exécution des tâches par une mise à jour dynamique du plan.
📊 Ces deux produits se distinguent dans les tests de benchmark d'automatisation GUI, marquant une percée importante dans le domaine de l'automatisation.
Lien pour plus d'informations : https://arxiv.org/abs/2508.15144
10. Microsoft lance Copilot Labs, le premier outil expérimental « Copilot Expression Audio » disponible
Microsoft a lancé un nouveau centre expérimental d'IA, Copilot Labs, visant à inviter les utilisateurs à participer à l'innovation et au développement de l'IA. Son premier outil est « Copilot Expression Audio », capable de transformer du texte écrit en voix off naturelle et fluide, et de prendre en charge les modes d'émotion et de narration, offrant aux utilisateurs un contrôle élevé.

【Résumé d'AiBase :】
🌟 Copilot Labs est une plateforme invitant les utilisateurs à participer à l'innovation en IA, marquant une exploration supplémentaire de Microsoft dans le domaine de l'IA.
🔊 « Copilot Expression Audio » est le premier outil expérimental, capable de convertir le texte en voix naturelle et de prendre en charge les modes d'émotion et de narration.







