Bienvenue dans la section 【Journal de l'IA】 ! C'est ici que vous pourrez explorer chaque jour le monde fascinant de l'intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus récentes du domaine de l'IA, en mettant l'accent sur les développeurs, pour vous aider à comprendre les tendances technologiques et découvrir de nouvelles applications d'IA innovantes.

Produits IA frais à découvrir : https://top.aibase.com/

1. La version ouverte de Kimi-Dev-72B de Moonlit Shadow dépasse les benchmarks de programmation

Moonlit Shadow a lancé une nouvelle version open-source de son modèle Kimi-Dev-72B, spécialisé dans les tâches d'ingénierie logicielle. Ce modèle a obtenu les meilleurs résultats au test SWE-bench Verified avec 7,2 milliards de paramètres, surpassant DeepSeek-R1, démontrant ainsi sa puissance exceptionnelle dans le domaine de la programmation.

image.png

[Résumé AiBase:]

🚀 Avec seulement 7,2 milliards de paramètres, Kimi-Dev-72B a obtenu un score de 60,4 % lors des tests SWE-bench Verified, devenant un nouveau point de référence pour les modèles open-source.

🔍 Le modèle combine deux rôles : BugFixer et TestWriter, garantissant la qualité et la précision du code, améliorant ses performances grâce à un mécanisme de jeu de réflexion interne.

🌟 À l'avenir, il sera intégré aux outils de développement populaires et continuera à être optimisé avec des versions plus puissantes.

2. MiniMax-M1 est open-source ! Inférence ultra-longue portée avec un coût de formation de 530 000 dollars !

MiniMax-M1 attire l'attention grâce à ses capacités d'inférence ultra-longue portée, à son coût de formation efficace et à son statut open-source, se distinguant comme l'un des meilleurs modèles open-source disponibles.

image.png

[Résumé AiBase:]

Contexte de 1 million d'entrées et 80k sorties, bien supérieur à GPT-4o, adapté à l'analyse de documents complexes et aux dialogues multi-tours.

Coût de formation de seulement 530 000 dollars, atteignant une inférence efficace et un faible coût grâce à l'architecture MoE et à l'algorithme CISPO.

Ouvert sur la plateforme Hugging Face, supportant 40k et 80k budgets de réflexion, offrant des performances comparables aux meilleurs modèles commerciaux.

3. Le modèle de chant Tencent LeVo arrive ! Un modèle de chanson comparable à Suno 4.5 avec la possibilité de cloner n'importe quel timbre vocal

Le modèle LeVo développé par l'équipe d'IA Tencent a suscité beaucoup de discussions grâce à ses capacités exceptionnelles de clonage de timbre vocal, de génération de pistes séparées et de reproduction fidèle de la musique. Comparé à Suno 4.5, il excelle sur plusieurs indicateurs clés tout en supportant le clonage de timbre vocal sans exemple préalable et la génération de pistes séparées, montrant une avancée révolutionnaire.

image.png

[Résumé AiBase:]

🌟 Capable de cloner des timbres vocaux sans exemple préalable, il peut reproduire précisément un timbre vocal en seulement 3 secondes, réduisant considérablement les barrières à la création musicale.

🎵 Offre un mode de génération de pistes séparées, permettant la séparation de la voix et de l'accompagnement, offrant plus de flexibilité dans la production musicale professionnelle.

🌐 Publié sous forme open-source, favorisant le développement de la communauté mondiale de la création musicale et renforçant l'influence internationale des technologies chinoises d'IA.

Lien de détail : https://levo-demo.github.io/

4. Mise à jour de Qwen3 d'Alibaba, compatible avec l'architecture MLX d'Apple

Je suis très enthousiasmé par cette collaboration entre Alibaba et Apple. La mise à jour de Qwen3 ne supporte pas seulement plus de langues, mais améliore également ses performances et ses capacités de raisonnement, marquant une étape importante pour l'intégration de l'intelligence d'Apple sur le marché chinois.

image.png

[Résumé AiBase:]

🌟 Alibaba lance la version mise à jour de Qwen3, compatible avec l'architecture MLX d'Apple, facilitant l'intégration de l'intelligence Apple en Chine.

📱 La version Qwen3 mise à jour supporte 119 langues et possède des performances et des capacités de raisonnement mixtes améliorées.

🚀 L'intelligence Apple n'est pas encore disponible en Chine, elle pourrait être incluse dans la version publique bêta iOS 18.6.

5. Lancement de la fonctionnalité « Podcast IA » sur la version bureau et web de DouBao

DouBao a introduit une nouvelle fonctionnalité appelée « Podcast IA », qui génère automatiquement des podcasts naturels en double dialogue à partir d’un PDF ou d’un lien, transformant radicalement la manière de recevoir des informations.

image.png

[Résumé AiBase:]

🌟 Vous pouvez générer rapidement des podcasts naturels et fluides à double dialogue en chargeant simplement un PDF ou un lien.

🏃‍♂️ Applicable dans divers contextes, comme le travail et les études, utilisant les moments de loisir pour obtenir des informations efficacement.

🎙️ Le rendu vocal est réaliste, sans effet mécanique, offrant une expérience auditive immersive.

6. L'app Quark lance « Professeur Quark » doté d'une capacité d'encadrement IA personnalisé

Quark a lancé un nouvel outil d’apprentissage appelé « Professeur Quark ». Cette fonctionnalité d'IA dispose de capacités puissantes pour expliquer des problèmes, corriger des devoirs, créer des exercices et rechercher des examens, en particulier dans la résolution de problèmes mathématiques et physiques complexes. Elle est capable d'adapter l'enseignement aux besoins individuels des élèves en analysant leurs données d'apprentissage pour fournir des辅导 personnalisés.

image.png

[Résumé AiBase:]

✨ Intègre plusieurs fonctions d'apprentissage telles qu'expliquer des problèmes, corriger des devoirs, créer des exercices et rechercher des examens, prenant en charge des analyses approfondies de problèmes mathématiques et physiques.

🎯 Peut fournir des conseils personnalisés selon les caractéristiques des étudiants, simulant la pensée d'un enseignant humain pour aider les étudiants à comprendre et améliorer leurs compétences en apprentissage.

📚 Dispose d'une vaste base de données de questions, y compris des bases de questions professionnelles et des examens de grandes écoles, répondant à des besoins diversifiés d'apprentissage.

7. Le modèle multimodal OmniFlow de Panasonic offre une flexibilité inédite entre texte, image et audio

J'ai une grande confiance dans ce modèle multimodal OmniFlow. Il peut facilement convertir du texte, des images et du son, tout en permettant aux utilisateurs de personnaliser les résultats générés selon leurs besoins, ce qui améliore considérablement la flexibilité et l'efficacité des opérations.

image.png

[Résumé AiBase:]

🌟 OmniFlow offre une conversion efficace entre texte, image et audio, offrant une toute nouvelle expérience multimodale.

⚙️ Conçu modulièrement, chaque composant est formé indépendamment, améliorant l'utilisation des ressources et optimisant les résultats d'entraînement.

🎯 Une mécanique de guidage multimodal a été introduite, permettant aux utilisateurs de contrôler précisément le processus de génération pour répondre à divers besoins.

8. TikTok lance de nouveaux outils créatifs d'IA : image en vidéo, texte en vidéo, produits en showcase

TikTok a introduit trois outils de création vidéo basés sur l'IA, incluant 'Image to Video', 'Text to Video' et 'Showcase Products', afin de simplifier les processus de création de contenu publicitaire pour les marques. Ces outils sont intégrés dans le studio créatif Symphony et coopèrent avec Adobe Express et WPP Open pour améliorer l'efficacité des annonceurs.

image.png

[Résumé AiBase:]

✨ La fonction 'Image to Video' permet de transformer facilement une image statique en une vidéo dynamique. En chargeant une image et en ajoutant des indications textuelles, plusieurs options de vidéo générées par IA peuvent être produites.

📝 La fonction 'Text to Video' ne nécessite ni image ni modèle, seulement du texte pour créer des vidéos, aidant les annonceurs à tester rapidement et à perfectionner leurs idées.

🛍️ La fonction 'Showcase Products' fusionne des images de produits avec des avatars numériques pour créer une expérience publicitaire immersive, améliorant le style de contenu original des utilisateurs.

9. ZEEKR et Volcano Engine s'associent pour offrir une nouvelle expérience de cabine intelligente avec BeanPod

ZEEKR Auto et Volcano Engine collaborent pour intégrer le modèle BeanPod dans la nouvelle version de ZEEKR AI OS, améliorant les services de cabine intelligente et optimisant les expériences personnalisées.

image.png

[Résumé AiBase:]

Le modèle BeanPod intégré dans la cabine intelligente de ZEEKR fournit des recommandations précises et des services personnalisés.

L'assistante vocale intelligente Eva mise à jour peut passer d'une interaction vocale traditionnelle à un service basé sur des modèles de langage larges de manière fluide.

Le 500 000e véhicule ZEEKR, modèle 009, est sorti, battant un record de vitesse pour les véhicules électriques de luxe.

10. Nouvelle percée dans les modèles IA ! Meta Llama 3.1 se souvient de 42 % du contenu de Harry Potter !

Des chercheurs de Stanford et d'autres institutions ont montré que le modèle Llama3.170B de Meta se distingue particulièrement dans la mémoire des textes, notamment dans des livres populaires comme Harry Potter.

image.png

[Résumé AiBase:]

📚 Le modèle Llama3.170B se souvient de 42 % du contenu de Harry Potter, dépassant largement le 4,4 % du modèle Llama165B.

🔍 La recherche utilise la base de données Books3, testant la mémoire du modèle via des segments de texte marqués.

🌟 Les effets de mémoire dans les livres populaires montrent les progrès réalisés par l'IA dans la compréhension et le traitement du texte.

11. Fonctionnalité Tasks de Grok en ligne : suivi planifié de sujets populaires, efficacité supérieure à ChatGPT

L'assistant IA de xAI, Grok, a introduit une nouvelle fonctionnalité appelée « Tasks », permettant des tâches planifiées automatisées pour effectuer des requêtes et envoyer des notifications externes, offrant une expérience d'accès à l'information rapide et pratique.

image.png

[Résumé AiBase:]

🌟 Supporte une variété de fréquences de tâches, allant de temps réel à des suivis à long terme, répondant à différents besoins.

📧 Offre une fonction de notification externe, tels que des emails, apportant les résultats directement aux utilisateurs, améliorant ainsi la commodité.

🏆 Les utilisateurs de SuperGrok bénéficient de quotas plus élevés et ont accès prioritairement aux nouvelles fonctionnalités de pointe, comme DeepSearch et Big Brain Mode.

12. Gemini 2.5 Pro va mettre à jour la fonction Deep Think