Google prévoit de combiner Gemini et le modèle Veo AI pour faire progresser les assistants intelligents

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Apr 11, 2025

Lors d'une récente émission de podcast, Demis Hassabis, PDG de Google DeepMind, a déclaré que Google envisageait de combiner son modèle d'intelligence artificielle Gemini avec le modèle de génération vidéo Veo afin d'améliorer la compréhension du monde physique par Gemini. Il a souligné que Gemini a été conçu dès le départ pour être multi-modal, dans le but de créer un « assistant numérique universel » capable d'aider réellement les utilisateurs dans le monde réel.

Modèle de langage Gemini de Google

Hassabis a mentionné que l'industrie de l'IA se dirige progressivement vers des modèles « omnicompétents » capables de comprendre et de synthétiser plusieurs formes de médias. Par exemple, le dernier modèle Gemini de Google peut non seulement générer du texte et des images, mais aussi de l'audio. Le modèle par défaut d'OpenAI dans ChatGPT est également capable de créer des images nativement. De plus, Amazon a annoncé le lancement cette année d'un modèle « tout-en-un ».

La réalisation de ces modèles omnicompétents nécessite un volume important de données d'entraînement, notamment des images, des vidéos, de l'audio et du texte. Hassabis a laissé entendre que les données d'entraînement du modèle Veo provenaient principalement de la plateforme YouTube, propriété de Google. Il a indiqué qu'en regardant de nombreuses vidéos YouTube, Veo pouvait apprendre les lois physiques du monde.

Google avait précédemment déclaré que ses modèles « pourraient » être entraînés à partir d'une « partie » du contenu YouTube, conformément aux accords conclus avec les créateurs de YouTube. Un rapport indique que Google a élargi ses conditions de service l'année dernière afin de pouvoir accéder à davantage de données pour entraîner ses modèles d'intelligence artificielle. Cette stratégie montre que Google cherche activement à améliorer ses capacités en matière d'IA afin de répondre aux besoins du marché.

Avec le développement rapide de la technologie de l'intelligence artificielle, ce projet de Google reflète l'importance accordée à l'IA multimodale par le secteur et les orientations possibles du développement futur. La combinaison des modèles Gemini et Veo contribuera à offrir aux utilisateurs une expérience interactive plus riche et permettra à l'intelligence artificielle de mieux s'intégrer à la vie quotidienne.

Points clés :
- 🤖 Google prévoit de combiner les modèles d'IA Gemini et Veo afin d'améliorer la compréhension du monde physique.
- 🎥 Les données d'entraînement du modèle Veo proviennent principalement de YouTube, en utilisant un grand nombre de vidéos pour apprendre les lois physiques.
- 🌐 Le secteur de l'IA se dirige vers des modèles « omnicompétents » multimodaux afin de répondre aux besoins croissants du marché.

Gemini Veo Multimodal Assistant numérique universel

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Haut degré de consistance, forte maîtrise : Tencent lance l'outil de génération de vidéos multimodales HunyuanCustom

May 12, 2025

Première norme pour le traitement de documents intelligents publiée : Gemini prend la tête mais doit combler ses lacunes. Les IA multimodales font face à des défis réels.

May 12, 2025

Barracuda propose une mise à niveau de l'IA multimodale pour améliorer les capacités de détection des menaces cybernétiques

May 9, 2025

Premier programmeur IA multimodale de Chine officiellement en poste : lancement officiel de l'agent intelligent Zulu de Wenxin Kuaima

La conférence des développeurs Create AI de Baidu s'est tenue avec succès à Pékin. Lors de cet événement technologique très attendu, Baidu a officiellement lancé la version 3.5 de Wenxin Kuaima et le premier programmeur IA multimodale de Chine, l'agent intelligent Wenxin Kuaima Comate Zulu, marquant une nouvelle étape dans le développement des outils de programmation IA.

Apr 27, 2025

Partenariat stratégique entre Zhipu AI et Shengshu Technology pour l'innovation conjointe dans les grands modèles

Le 27 avril, Zhipu AI (Z.ai) et Shengshu Technology (shengshu.com), deux entreprises d'intelligence artificielle phares de l'Université Tsinghua, ont annoncé un partenariat stratégique majeur. Cette collaboration vise à exploiter leurs expertises respectives en matière de grands modèles de langage et de modèles de génération multimodaux afin de promouvoir l'innovation technologique et le déploiement industriel des grands modèles nationaux.

Apr 27, 2025

芯驰发布新一代4纳米AI座舱芯片X10，提升智能驾驶体验

芯驰科技发布了其新一代4纳米AI座舱芯片X10，旨在通过强大的计算能力和先进的AI技术，显著提升智能驾驶体验。X10芯片集成了70亿参数的多模态大模型，能够处理复杂的驾驶场景和信息，为用户提供更安全、更便捷、更智能的驾驶体验。

Apr 27, 2025

Moonshot AI lance Kimi-Audio : un modèle audio de base open source révolutionnaire

Moonshot AI a récemment annoncé le lancement de Kimi-Audio, un nouveau modèle audio de base open source visant à faire progresser les technologies de compréhension, de génération et d’interaction audio. Cette annonce a suscité un vif intérêt au sein de la communauté mondiale de l’IA et est considérée comme une étape importante dans le développement de l’IA multimodale. Voici un compte rendu complet des caractéristiques clés, des performances et de l’impact sectoriel de Kimi-Audio. Caractéristiques révolutionnaires : capacité de traitement audio polyvalente Kimi-Audio-7B-Instruct basé sur Qwen

Apr 27, 2025

Meta publie le modèle WebSSL : une nouvelle exploration de l’apprentissage visuel sans langage

Dans le domaine de l’intelligence artificielle, Meta a récemment lancé la série de modèles WebSSL. Ces modèles, dont la taille des paramètres varie de 300 millions à 7 milliards, sont entraînés sur des données d’images pures et visent à explorer l’énorme potentiel de l’apprentissage autosupervisé visuel (SSL) sans supervision linguistique. Cette nouvelle recherche ouvre de nouvelles possibilités pour les futures tâches multimodales et offre un nouvel éclairage sur la manière dont nous comprenons l’apprentissage des représentations visuelles. Auparavant, le modèle CLIP d’OpenAI s’était distingué par ses performances dans les tâches multimodales telles que la question-réponse visuelle (VQA) et la compréhension de documents.

Apr 25, 2025

Partenariat stratégique entre Leapstar et Yuanli Lingji

Leapstar et Yuanli Lingji ont signé un accord de partenariat stratégique à Beijing. Les deux parties mettront à profit leurs avantages technologiques respectifs pour collaborer en profondeur dans les domaines de la technologie des modèles multimodaux de grande taille, des agents d'appareils intelligents et des scénarios d'intelligence incarnée. L'objectif de cette collaboration est de réaliser le « raisonnement dans le monde physique » et de développer conjointement un robot intelligent appelé « RoboAgent », afin de promouvoir l'application concrète de l'intelligence artificielle générale (AGI). Lors de la cérémonie de signature, le Dr. Jiang Daxin, fondateur et PDG de Leapstar, et les co-fondateurs de Yuanli Lingji...

Apr 24, 2025

Kunlun Wanwei publie en open source la version 2.0 de Skywork-R1V : amélioration des capacités de raisonnement visuel et textuel

Le 24 avril, Kunlun Wanwei a annoncé la publication en open source de son modèle d'inférence multimodale Skywork-R1V2.0 (ci-après R1V2.0). Cette version mise à jour a considérablement amélioré ses capacités de raisonnement visuel et textuel, notamment dans les problèmes de raisonnement approfondis des sciences de niveau baccalauréat et dans les scénarios de tâches générales, faisant de lui le modèle multimodale open source le plus équilibré en termes de capacités de raisonnement visuel et textuel.

Apr 24, 2025

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

Google prévoit de combiner Gemini et le modèle Veo AI pour faire progresser les assistants intelligents

AIbase基地

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

Haut degré de consistance, forte maîtrise : Tencent lance l'outil de génération de vidéos multimodales HunyuanCustom

Première norme pour le traitement de documents intelligents publiée : Gemini prend la tête mais doit combler ses lacunes. Les IA multimodales font face à des défis réels.

Barracuda propose une mise à niveau de l'IA multimodale pour améliorer les capacités de détection des menaces cybernétiques

Premier programmeur IA multimodale de Chine officiellement en poste : lancement officiel de l'agent intelligent Zulu de Wenxin Kuaima

Partenariat stratégique entre Zhipu AI et Shengshu Technology pour l'innovation conjointe dans les grands modèles

芯驰发布新一代4纳米AI座舱芯片X10，提升智能驾驶体验

Moonshot AI lance Kimi-Audio : un modèle audio de base open source révolutionnaire

Meta publie le modèle WebSSL : une nouvelle exploration de l’apprentissage visuel sans langage

Partenariat stratégique entre Leapstar et Yuanli Lingji

Kunlun Wanwei publie en open source la version 2.0 de Skywork-R1V : amélioration des capacités de raisonnement visuel et textuel