Google DeepMind ha publicado recientemente un artículo en su blog, presentando oficialmente el nuevo modelo de inteligencia artificial para robots Gemini Robotics On-Device. Este modelo utiliza una arquitectura visual-lenguaje-acción (VLA), permitiendo un control preciso de robots físicos sin necesidad de soporte en la nube.
El mayor atractivo de este nuevo modelo es que opera completamente en el dispositivo del robot, logrando una respuesta con baja latencia. Esta característica lo hace especialmente adecuado para entornos con conexión a internet inestable, como lugares médicos y otras aplicaciones críticas.
En cuanto a la precisión operativa, el modelo demuestra capacidades impresionantes, capaz de realizar tareas de alta dificultad como abrir cierres de bolsas, doblar ropa y atar cordones. El sistema utiliza un diseño de dos brazos robóticos y ya está adaptado a las plataformas de robots humanoides ALOHA, Franka FR3 y Apollo.
Google ofrece a los desarrolladores un paquete completo de herramientas Gemini Robotics SDK, reduciendo significativamente la barrera para personalizar. Los desarrolladores solo necesitan 50-100 demostraciones de tareas para personalizar nuevas funciones para los robots, además el sistema también admite el simulador físico MuJoCo para pruebas previas.
En términos de seguridad, el sistema cuenta con mecanismos completos de garantía. Mediante el API en vivo se realiza una detección semántica de seguridad, asegurando la conformidad del comportamiento del robot, mientras que el controlador de seguridad de bajo nivel se encarga de gestionar con precisión la fuerza y velocidad de los movimientos, evitando lesiones accidentales.
El responsable del proyecto, Carolina Parada, dijo: "Este sistema aprovecha plenamente la capacidad multimodal de comprensión del mundo de Gemini, al igual que Gemini puede generar texto, código e imágenes, ahora también puede generar acciones precisas para robots".
Actualmente, este modelo está disponible únicamente para desarrolladores participantes en planes de prueba confiables. Es importante destacar que este modelo se desarrolló basándose en la arquitectura Gemini 2.0, lo que representa cierta diferencia tecnológica con la versión más reciente de Google, Gemini 2.5.