Planification Visuelle Linguistique

Planification visuelle de tâches complexes à long terme

Produit OrdinaireVidéoPlanification visuelleMultimodal

La Planification Visuelle Linguistique (PVL) est un algorithme qui, grâce à l'entraînement de modèles vision-langage et de modèles texte-vers-vidéo, permet la planification visuelle de tâches complexes à long terme. La PVL prend en entrée une instruction de tâche à long terme et une observation d'image actuelle, et produit en sortie une planification multimodale détaillée (vidéo et langage) décrivant comment accomplir la tâche finale. La PVL est capable de générer des planifications vidéo à long terme dans différents domaines de la robotique, allant du réarrangement de plusieurs objets à la manipulation habile à deux bras avec plusieurs caméras. La planification vidéo générée peut être convertie en actions robotiques réelles grâce à une stratégie de conditionnement par objectif. Les expérimentations démontrent que, comparée aux méthodes précédentes, la PVL améliore significativement le taux de réussite des tâches à long terme.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Planification Visuelle Linguistique

Planification Visuelle Linguistique Dernière situation du trafic

Planification Visuelle Linguistique Tendance des visites

Planification Visuelle Linguistique Distribution géographique des visites

Planification Visuelle Linguistique Sources de trafic

Planification Visuelle Linguistique Alternatives

Planification Visuelle Linguistique — Planification visuelle de tâches complexes à long terme

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct est un modèle de base multimédia léger développé par Microsoft, prenant en charge les entrées texte, image et audio.

Gemini Robotics — Modèle robotique basé sur Gemini 2.0, intégrant l'IA dans le monde physique, doté de capacités visuelles, linguistiques et motrices.

GR-2 — Agent robotique universel avancé

Apera IA — Rendre le guidage visuel robotique plus fiable et efficace

Unitree RL GYM — Plateforme robotique Unitree pour l'apprentissage par renforcement

Modèle de pensée visuelle Kimi k1 — Modèle de pensée visuelle basé sur l'apprentissage par renforcement, leader du secteur des tests scientifiques.

VITA-1.5 — VITA-1.5 : Modèle linguistique multimodal de classe GPT-4o, permettant une interaction visuelle et vocale en temps réel

Figure AI — Figure est la première entreprise d'IA robotique à se concentrer sur le développement de robots humanoïdes polyvalents.

SpeechGPT — Modèle linguistique multimodal

Pixtral-12B-2409 — Modèle multimodal de 12 milliards de paramètres, combinant un encodeur visuel pour traiter les images et le texte.

Whimsical — Le centre de la collaboration visuelle

Ximilar — Ximilar : IA visuelle pour les entreprises

InternVL2_5-26B-MPO — Grand modèle linguistique multimodale améliorant l'interaction visuelle et linguistique.

VoyageAI — Assistant intelligent de planification de voyage

Structured sur Setapp — Planification, tâches et rappels

Nous, Robots — La vision de Tesla pour l'avenir de la conduite autonome et de la robotique

OK-Robot — Framework d'intégration robotique ouvert, permettant le transport d'objets ménagers.

AMBLR - Assistant de Voyage IA — Assistant de planification de voyage gratuit

AI.Adventures — Assistant de planification de voyage ChatGPT

Genesis IA — Moteur physique universel, destiné à la robotique et aux applications d'IA physique

SmolVLM-500M-Instruct — SmolVLM-500M est un modèle multimodal léger capable de traiter des entrées image et texte et de générer des sorties textuelles.

imp-v1-3b — Un puissant modèle linguistique multimodal de petite taille

MouSi — Modèle linguistique visuel multimodal

Hasty — Plateforme IA visuelle tout-en-un

Magma — Magma est un modèle fondamental capable de comprendre et d'exécuter des entrées multimodales, utilisable pour des tâches et des environnements complexes.

Digit Plexus — Plateforme matérielle robotique intégrant des capteurs et des effecteurs terminaux.

Yi-VL-34B — Modèle multimodal open source avancé

PlanTrips : Planificateur de voyage IA — Assistant intelligent de planification de voyage

NVLM-D-72B — Modèle linguistique multimodal de grande envergure de pointe