Bienvenue dans l'émission « Journal de l'IA » ! C'est votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les sujets d'actualité dans le domaine de l'IA, en mettant l'accent sur les développeurs, afin que vous puissiez comprendre les tendances technologiques et découvrir les applications innovantes des produits d'IA.

Produits d'IA frais Cliquez ici pour plus d'informations :https://app.aibase.com/zh

1. Xiaomi ouvre son premier modèle de parole à grande échelle natif, Xiaomi-MiMo-Audio

La société Xiaomi a annoncé le lancement de son premier modèle de parole à grande échelle natif, Xiaomi-MiMo-Audio, marquant une importante percée dans le domaine de la technologie de la parole. Ce modèle repose sur une architecture de pré-entraînement innovante et sur plusieurs dizaines de millions d'heures de données d'entraînement. Il se distingue par sa capacité exceptionnelle à généraliser avec peu d'exemples et dépasse d'autres modèles fermés sur plusieurs benchmarks d'évaluation.

image.png

【Résumé par AiBase :】

🧠 Pour la première fois, une capacité de généralisation avec peu d'exemples basée sur l'apprentissage en contexte est réalisée dans le domaine de la parole.

🚀 Le modèle dépasse les modèles fermés de Google et OpenAI sur les benchmarks d'analyse audio MMAU et Big Bench Audio S2T.

🔧 L'ouverture complète du plan de pré-entraînement vocal, y compris le Tokenizer, la structure du modèle, les méthodes d'entraînement et le système d'évaluation.

Lien vers les détails : https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

2. Le nouveau modèle de génération de mouvements Wan2.2-Animate de Tongyi Wanxiang est officiellement ouvert

Le nouveau modèle de génération de mouvements Wan2.2-Animate développé par l'équipe Tongyi Wanxiang présente des améliorations significatives en matière de cohérence des personnages et de qualité de génération. Il prend en charge deux modes : la simulation de mouvements et le rôle de personnage, et est largement utilisé dans les créations de courts vidéos, la production d'animes, etc.

image.png

【Résumé par AiBase :】

🎭 Entrée d'une image de personnage et d'une vidéo de référence, le modèle peut transférer les mouvements de la vidéo au personnage de l'image.

🎭 Dans le mode de rôle de personnage, le modèle peut remplacer le personnage de la vidéo par le personnage de l'image.

🖼️ Le modèle dispose d'un LoRA indépendant pour la fusion de lumière, garantissant une intégration parfaite des effets de lumière.

Lien vers les détails : https://github.com/Wan-Video/Wan2.2

3. Le modèle musical Suno v5 arrive bientôt, apportant une évolution « révolutionnaire » à la création musicale par IA

Le modèle musical Suno v5 va être lancé et est considéré comme un jalon dans la création musicale par IA. Il devrait encore plus flouter la frontière entre la composition humaine et la génération par machine.

image.png

【Résumé par AiBase :】

🎧 Le modèle musical Suno v5 sera bientôt lancé, attirant l'attention mondiale.

💡 La version v5 introduira des contrôles sémantiques plus avancés et des fonctionnalités d'entrée multimodales.

📈 Après le lancement de la version v4.5, le nombre de lectures des œuvres générées par les utilisateurs a dépassé plusieurs milliards.

4. Shengshu Technology obtient une financement de plusieurs milliards de yuans, la génération vidéo mène une nouvelle tendance à la commercialisation de l'IA

Shengshu Technology a réalisé des progrès notables dans le domaine de l'IA multimodale et a réussi à obtenir un financement de plusieurs milliards de yuans. Grâce au modèle de grande vidéo Vidu, elle a atteint un succès commercial. À l'avenir, les technologies de génération vidéo devraient continuer à se développer et influencer plusieurs secteurs, mais elles doivent également faire face aux problèmes de droits d'auteur et d'information fausse.

image.png

【Résumé par AiBase :】

🎥 Shengshu Technology a bouclé une série de financements de plusieurs milliards de yuans, marquant une nouvelle percée dans le domaine de l'IA multimodale.

💼 Le modèle de grande vidéo Vidu génère un chiffre d'affaires annuel de 20 millions de dollars, avec des applications commerciales étendues.

🌐 La technologie de génération vidéo changera la manière dont le contenu numérique mondial est produit, mais elle doit faire face à des défis tels que la gestion des droits d'auteur.

5. OpenAI répare un bug de ChatGPT, empêchant le vol de données Gmail des utilisateurs

L'article indique que l'entreprise de cybersécurité Radware a découvert un grave vulnérabilité dans la fonction « recherche approfondie » de ChatGPT, qui pourrait être exploitée par des pirates pour voler les e-mails Gmail des utilisateurs. Ce vulnérable permet aux pirates d'induire ChatGPT à envoyer des informations sensibles vers des sites malveillants lors du traitement des requêtes Gmail des utilisateurs. OpenAI a rapidement corrigé ce problème et a souligné que la sécurité du modèle est sa priorité absolue.

image.png

【Résumé par AiBase :】

📧 Un bug de ChatGPT permet aux pirates de voler les données Gmail des utilisateurs via des e-mails spécialement conçus.

🔒 OpenAI a rapidement corrigé le bug et a confirmé son importance accordée à la sécurité des informations des utilisateurs.

🛡️ Les protections de sécurité habituelles ne peuvent pas détecter ces types d'attaques, les utilisateurs doivent donc rester vigilants.

6. Google intègre Gemini dans le navigateur Chrome pour offrir une expérience de recherche intelligente

Google intègre Gemini dans le navigateur Chrome pour améliorer l'expérience utilisateur et répondre à la pression concurrentielle. Gemini prend en charge le travail entre onglets, la planification de tâches, et s'intègre profondément avec plusieurs applications de Google. Les utilisateurs professionnels bénéficieront également des fonctions de protection des données et de proxy.

image.png

【Résumé par AiBase :】

🌐 Google intègre Gemini dans Chrome pour améliorer l'expérience de recherche intelligente.

📅 Gemini permet aux utilisateurs de comprendre le contenu des pages web, de travailler entre onglets et d'organiser des tâches.

🔒 Les utilisateurs professionnels bénéficieront également des fonctions de protection des données et de proxy proposées par Gemini.

7. Luma AI lance Ray3 : une révolution dans la génération vidéo grâce à ses capacités de raisonnement, supportant une profondeur de 16 bits

Le modèle de génération vidéo Ray3 lancé par Luma AI apporte des changements révolutionnaires à la création vidéo grâce à ses capacités HDR et son puissant « raisonnement ». Il prend en charge un contrôle visuel précis et une intégration fluide des processus professionnels.

image.png

【Résumé par AiBase :】

🎥 Ray3 prend en charge la génération de vidéos avec une profondeur de 10, 12 ou même 16 bits, et peut être exporté au format EXR pour faciliter les workflows professionnels.

🧠 Ray3 possède une capacité de raisonnement, permettant de comprendre des instructions complexes et d'évaluer automatiquement la qualité de la sortie, réalisant ainsi une optimisation itérative de la vidéo.

🖌️ Les utilisateurs peuvent contrôler le contenu de la vidéo en dessinant un croquis, offrant une liberté de création inégalée.

8. La société française Mistral lance son modèle d'inférence open source Magistral Small 1.2

La société française Mistral AI a lancé son tout nouveau modèle d'inférence open source Magistral Small 1.2, doté de 24 milliards de paramètres et publié sous licence Apache 2.0. La nouvelle version prend en charge un contexte allant jusqu'à 128 k, introduit le token spécial [THINK], améliorant ainsi la performance et la flexibilité du modèle. De plus, Magistral Small 1.2 a ajouté un encodeur visuel, compatible avec divers cadres, offrant plus de commodité aux développeurs.

image.png

【Résumé par AiBase :】

🧠 Magistral Small 1.2 est un modèle d'inférence open source avec 24 milliards de paramètres, publié sous licence Apache 2.0.

🔍 La nouvelle version introduit le token spécial [THINK], améliorant ainsi la performance et la flexibilité du modèle.

🖼️ L'ajout d'un encodeur visuel lui confère un avantage supplémentaire dans les tâches combinant images et textes.

9. Notion lance un agent intelligent IA ! Génération automatique de notes de réunion, d'analyses concurrentielles, traitement de centaines de pages en 20 minutes

Notion a lancé son premier agent intelligent, capable de générer automatiquement des notes de réunion, des rapports d'analyse et des évaluations concurrentielles en utilisant toutes les pages et bases de données Notion comme contexte. Cette fonctionnalité puissante permet de créer ou de mettre à jour des pages et bases de données, et de déclencher des opérations à partir de plateformes externes. La personnalisation est sa principale caractéristique, permettant aux utilisateurs de configurer une page de profil pour l'agent, lui indiquant comment citer les sources et le style de sortie.

image.png

【Résumé par AiBase :】

🧠 L'agent intelligent peut générer automatiquement des notes de réunion, des rapports d'analyse et des évaluations concurrentielles.

🔄 Supporte le déclenchement d'opérations de l'agent depuis des plateformes externes (comme Slack, courriels et Google Drive).

📝 Les utilisateurs peuvent personnaliser la page de profil de l'agent, lui indiquant son comportement et son style de sortie.

10. Tencent Huyuan 3D Studio fait son apparition : la création 3D passe de l'échelle de jours à celle de minutes

Le lancement de Tencent Huyuan 3D Studio marque une amélioration révolutionnaire de l'efficacité de la création 3D, offrant aux designers, développeurs de jeux et modélisateurs une puissante plateforme d'IA, réduisant significativement le cycle de production d'actifs 3D.

image.png

【Résumé par AiBase :】

🧠 Algorithme natif de segmentation 3D permettant la séparation automatique des composants du modèle, supportant l'édition indépendante des accessoires et vêtements des personnages.

🎨 Technologie d'UV sémantique IA générant des UV conformes aux normes artistiques en 1 à 2 minutes, augmentant ainsi l'efficacité du travail.

🔧 Édition de matériaux intelligents supportant la génération de textures PBR de haute qualité à partir d'entrées textuelles ou d'images, permettant un contrôle précis des matériaux.

Lien vers les détails : https://3d.hunyuan.tencent.com/studio