Lors d'une récente émission de podcast, Demis Hassabis, PDG de Google DeepMind, a déclaré que Google envisageait de combiner son modèle d'intelligence artificielle Gemini avec le modèle de génération vidéo Veo afin d'améliorer la compréhension du monde physique par Gemini. Il a souligné que Gemini a été conçu dès le départ pour être multi-modal, dans le but de créer un « assistant numérique universel » capable d'aider réellement les utilisateurs dans le monde réel.
Hassabis a mentionné que l'industrie de l'IA se dirige progressivement vers des modèles « omnicompétents » capables de comprendre et de synthétiser plusieurs formes de médias. Par exemple, le dernier modèle Gemini de Google peut non seulement générer du texte et des images, mais aussi de l'audio. Le modèle par défaut d'OpenAI dans ChatGPT est également capable de créer des images nativement. De plus, Amazon a annoncé le lancement cette année d'un modèle « tout-en-un ».
La réalisation de ces modèles omnicompétents nécessite un volume important de données d'entraînement, notamment des images, des vidéos, de l'audio et du texte. Hassabis a laissé entendre que les données d'entraînement du modèle Veo provenaient principalement de la plateforme YouTube, propriété de Google. Il a indiqué qu'en regardant de nombreuses vidéos YouTube, Veo pouvait apprendre les lois physiques du monde.
Google avait précédemment déclaré que ses modèles « pourraient » être entraînés à partir d'une « partie » du contenu YouTube, conformément aux accords conclus avec les créateurs de YouTube. Un rapport indique que Google a élargi ses conditions de service l'année dernière afin de pouvoir accéder à davantage de données pour entraîner ses modèles d'intelligence artificielle. Cette stratégie montre que Google cherche activement à améliorer ses capacités en matière d'IA afin de répondre aux besoins du marché.
Avec le développement rapide de la technologie de l'intelligence artificielle, ce projet de Google reflète l'importance accordée à l'IA multimodale par le secteur et les orientations possibles du développement futur. La combinaison des modèles Gemini et Veo contribuera à offrir aux utilisateurs une expérience interactive plus riche et permettra à l'intelligence artificielle de mieux s'intégrer à la vie quotidienne.
Points clés :
- 🤖 Google prévoit de combiner les modèles d'IA Gemini et Veo afin d'améliorer la compréhension du monde physique.
- 🎥 Les données d'entraînement du modèle Veo proviennent principalement de YouTube, en utilisant un grand nombre de vidéos pour apprendre les lois physiques.
- 🌐 Le secteur de l'IA se dirige vers des modèles « omnicompétents » multimodaux afin de répondre aux besoins croissants du marché.