Journal AI : Alibaba TONGYI lance un modèle de génération audio open source appelé ThinkSound ; Google Veo3 génère des vidéos à partir d'images ; Feishu dévoile des dizaines de nouveaux produits IA

Bienvenue dans le programme « Journal de l'IA » ! C'est votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les sujets d'actualité dans le domaine de l'IA, en mettant l'accent sur les développeurs, afin que vous puissiez comprendre les tendances technologiques et découvrir des applications innovantes de l'IA.

Produits d'IA récents cliquez pour en savoir plus :https://top.aibase.com/

1. Alibaba Qwen a ouvert au public un modèle de génération audio qui supporte le raisonnement en chaîne, ThinkSound

L'équipe d'IA vocale d'Alibaba a ouvert au public le premier modèle mondial de génération audio capable de réaliser un raisonnement en chaîne. Ce modèle, en introduisant la technologie de pensée en chaîne, a franchi les limites des technologies traditionnelles de conversion vidéo en audio, permettant une génération d'audio spatial de haute fidélité et de forte synchronisation. Cette avancée technologique marque un passage de l'« accompagnement vocal par image » à une « compréhension structurée des images ».

【Résumé d'AiBase :】
🧠 ThinkSound est le premier à combiner des modèles de langage à grande échelle multimodaux avec une architecture de génération audio uniforme, permettant une synthèse audio précise.
📊 L'équipe de recherche a construit un ensemble de données AudioCoT comprenant 2531,8 heures d'échantillons de haute qualité, améliorant ainsi la capacité du modèle à traiter des instructions complexes.
🚀 ThinkSound s'est montré supérieur aux méthodes dominantes dans plusieurs jeux de tests. Le code et les poids pré-entraînés sont désormais accessibles gratuitement pour les développeurs.
Lien détaillé : https://github.com/FunAudioLLM/ThinkSound https://huggingface.co/spaces/FunAudioLLM/ThinkSound https://www.modelscope.cn/studios/iic/ThinkSound

2. Veo3 de Google fait un lancement majeur, supporte la génération de vidéos à partir d'images statiques

Google a annoncé une mise à niveau majeure de son outil de génération de vidéos IA Veo3. Les utilisateurs n'ont qu'à télécharger une image statique pour générer du contenu audio et vidéo de haute qualité, illustrant ainsi le grand potentiel de l'IA dans le domaine de la création. Les fonctions principales de Veo3 incluent la conservation de la cohérence des personnages sur plusieurs plans et offrent des fonctionnalités variées de mouvement de caméra, comme le dolly in. De plus, les utilisateurs peuvent choisir différents modèles de qualité, mais cela nécessite l'utilisation de crédits correspondants.

【Résumé d'AiBase :】
🖼️ Après la mise à niveau, Veo3 permet de générer des vidéos dynamiques de haute qualité à partir d'une seule image statique.
🎥 Prise en charge des fonctions de mouvement de caméra, comme le dolly in, pour améliorer la professionnalité des vidéos.
🔊 Les utilisateurs peuvent choisir différents modèles de qualité, mais cela consomme des crédits correspondants.

3. Hugging Face lance le nouveau modèle SmolLM3 à petit nombre de paramètres : 128K contexte, raisonnement en deux modes

Hugging Face a lancé SmolLM3, un modèle open source à petit nombre de paramètres (3 milliards), dont les performances surpassent celles de Llama-3.2-3B et Qwen2.5-3B. Ce modèle prend en charge le traitement de plusieurs langues et possède une fonction de raisonnement en deux modes, tout en rendant publique sa structure architecturale pour encourager la recherche et l'optimisation.

【Résumé d'AiBase :】
🧠 SmolLM3 dispose de 3 milliards de paramètres, ses performances dépassent les modèles open source similaires, et prend en charge le traitement multilingue.
⚙️ Il propose deux modes de raisonnement : réflexion approfondie et non réflexion, adaptés à divers besoins.
📊 Utilise une architecture de décodeur transformer avancée, améliorant ses capacités grâce à un entraînement mixte en trois étapes.
Lien détaillé : https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

4. Alibaba ouvre au public WebSailor, doté d'une forte capacité de raisonnement et de recherche

Alibaba Qwen a ouvert au public WebSailor, un agent web, qui se distingue dans les jeux de tests BrowseComp en chinois et en anglais, surpassant des modèles propriétaires tels que DeepSeek R1 et Grok-3, démontrant ainsi une forte capacité de raisonnement et de recherche. Galaxy Securities a indiqué que l'économie des agents IA avait commencé pleinement, et a recommandé de prêter attention aux entreprises SAAS leaders. Des sociétés cotées comme Focus Technology et Zhongke Jincai ont déjà mis en œuvre cette technologie d'agents IA, favorisant ainsi le développement de la technologie des agents intelligents.

【Résumé d'AiBase :】
📌 Alibaba Qwen a ouvert au public WebSailor, qui montre une forte capacité de raisonnement et de recherche.
📈 Galaxy Securities affirme que l'économie des agents IA a démarré pleinement, et recommande de prêter attention aux entreprises SAAS concernées.
💡 Des entreprises comme Focus Technology et Zhongke Jincai ont un avantage clair dans l'application de la technologie des agents intelligents.
Lien détaillé : https://github.com/Alibaba-NLP/WebAgent

5. Moonvalley lance Marey Realism v1.5 : modèle de vidéo IA natif en 1080P, risque zéro de droits d'auteur, dirigeant une nouvelle tendance de l'industrie !

Le modèle de génération de vidéos AI Marey Realism v1.5 de Moonvalley a connu une amélioration globale en termes de qualité d'image, de liberté créative et de conformité juridique. Sa capacité native à générer des vidéos en 1080P, ses données d'entraînement basées sur des contenus autorisés et sa capacité à interpréter précisément les instructions complexes offrent des outils plus sûrs et plus efficaces pour la production cinématographique et la publicité.

【Résumé d'AiBase :】
🎥 Capacité native à générer des vidéos en 1080P, offrant une expérience visuelle proche de la prise de vue réelle.
🔒 Données d'entraînement 100 % autorisées, éliminant complètement les risques liés aux droits d'auteur.
🔄 Supporte la génération vidéo à partir de texte et d'images, augmentant la flexibilité de la création.

6. Vidu Q1 s'inspire de la vidéo : supporte jusqu'à sept images, la génération de vidéos IA atteint un nouveau sommet

La fonction « Conversion d'image en vidéo » de Vidu Q1 permet aux utilisateurs de charger jusqu'à sept images de référence pour générer des vidéos en 1080p avec une très forte cohérence visuelle. Cette technologie utilise la fusion sémantique pour garantir que les éléments de plusieurs images restent cohérents dans la vidéo, résolvant ainsi les problèmes de rupture de scènes ou de déformation des personnages rencontrés avec les méthodes traditionnelles de génération de vidéos IA, offrant ainsi un outil puissant aux créateurs.

【Résumé d'AiBase :】
🎥 Supporte jusqu'à sept images de référence, améliorant la flexibilité de la création vidéo.
🔍 La technologie de fusion sémantique assure une cohérence élevée des éléments des images dans la vidéo.
🔄 La technologie d'cohérence multi-subjects permet une expérience visuelle fluide dans des scènes complexes.

7. Apple développe un assistant clientèle IA similaire à ChatGPT, améliorant l'expérience client

Apple travaille actuellement sur un « assistant de support » basé sur l'intelligence artificielle, destiné à offrir aux utilisateurs une expérience de service client plus intelligente et efficace. Cette fonction a été découverte dans le code de l'application Apple Support, et permettra aux utilisateurs d'obtenir des solutions générées par l'IA avant de contacter le service client, améliorant ainsi l'efficacité du service.

【Résumé d'AiBase :】
🍎 Apple développe un assistant clientèle basé sur l'IA pour améliorer l'efficacité du service client.
💬 Les utilisateurs pourront obtenir des solutions pour leurs problèmes via l'IA avant de contacter le service client, réduisant ainsi le temps d'attente.
🔄 L'assistant clientèle pourrait permettre le téléchargement de fichiers, enrichissant ainsi l'expérience d'interaction.

8. Feishu lance plusieurs nouveaux produits IA, construisant une « Doubao » pour les entreprises

Feishu a lancé plusieurs produits IA, notamment des questions-réponses, des réunions IA, Aily, Feishu Miaoda, etc., afin d'accélérer la mise en œuvre de l'IA dans les applications d'entreprise. En outre, Feishu a également lancé le premier modèle de maturité d'application IA du secteur, permettant aux entreprises d'évaluer l'effet réel des produits IA.

【Résumé d'AiBase :】
🚀 Feishu lance plusieurs produits IA, aidant les entreprises à adopter l'intelligence artificielle.
📊 Développe un modèle de maturité d'application IA, améliorant la capacité des entreprises à juger les produits IA.
📈 La performance et les capacités d'IA des tableaux multidimensionnels de Feishu connaissent une amélioration double, soutenant le traitement de grandes quantités de données.

9. Microsoft, OpenAI et Anthropic lancent ensemble un centre de formation pour enseignants en IA

La fédération des enseignants américains (AFT) a lancé conjointement avec Microsoft, OpenAI et Anthropic une académie nationale d'intelligence artificielle, afin de fournir aux enseignants une formation gratuite sur les outils d'IA, les aidant à mieux utiliser la technologie de l'intelligence artificielle. Ce projet bénéficie d'un financement de 23 millions de dollars, favorisant ainsi la transformation technologique dans le domaine de l'éducation.

【Résumé d'AiBase :】
👩‍🏫 Les enseignants apprendront à maîtriser de nouvelles technologies via la formation en IA pour assurer leur rôle dominant dans l'éducation.
💰 Microsoft, OpenAI et Anthropic financent le projet d'éducation en IA avec 23 millions de dollars.
📚 L'académie IA vise à promouvoir l'égalité éducative, en veillant à ce que la technologie serve les élèves et les enseignants.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Journal AI : Alibaba TONGYI lance un modèle de génération audio open source appelé ThinkSound ; Google Veo3 génère des vidéos à partir d'images ; Feishu dévoile des dizaines de nouveaux produits IA

站长之家

Cet article provient d'AIbase Daily