La tecnología de robótica está experimentando una transformación fundamental. El proyecto Gemini Robotics, recientemente lanzado por Google DeepMind, presenta dos nuevos modelos que trabajan en colaboración, logrando por primera vez un sistema robótico capaz de "pensar" antes de actuar. Este avance podría cambiar radicalmente la limitación actual de los robots, que solo pueden realizar tareas específicas.

La tecnología de inteligencia artificial generativa ya es común en la creación de textos, imágenes, audio y video, y ahora la misma tecnología se aplica para generar instrucciones de movimiento para los robots. El equipo de DeepMind considera que la inteligencia artificial generativa tiene una importancia única para la tecnología robótica, ya que puede desbloquear características funcionales generales.

El problema central con los robots actuales es su excesiva especialización. Cada robot necesita ser entrenado intensamente para tareas específicas, y su rendimiento es deficiente al realizar otras tareas. Carolina Parada, jefa del departamento de robótica de Google DeepMind, señaló: "Los robots de hoy están altamente personalizados y son difíciles de implementar, generalmente requiriendo meses para instalar una unidad robótica que pueda realizar solo una tarea específica".

image.png

Las características básicas de los sistemas generativos hacen que los robots impulsados por IA sean más versátiles. Pueden enfrentarse a entornos y espacios de trabajo nuevos, adaptándose sin necesidad de reprogramación. El enfoque actual de la tecnología robótica de DeepMind depende de la colaboración de dos modelos: uno encargado de pensar y otro de ejecutar.

Estos dos nuevos modelos se llaman Gemini Robotics 1.5 y Gemini Robotics-ER 1.5. El primero es un modelo de visión-lenguaje-acción, capaz de generar instrucciones de movimiento para robots utilizando datos visuales y de texto. El segundo, cuyo nombre "ER" representa razonamiento corporal, es un modelo de visión-lenguaje que recibe entradas visuales y de texto y genera pasos necesarios para completar tareas complejas.

Gemini Robotics-ER 1.5 es el primer sistema de IA robótica con capacidad de razonamiento simulado, similar al proceso de razonamiento de los chatbots modernos. DeepMind lo llama "capacidad de pensamiento", aunque este término puede no ser completamente preciso en el ámbito de la IA generativa. Según DeepMind, el modelo ER obtuvo resultados destacados en pruebas académicas y internas, lo que indica que puede tomar decisiones precisas sobre cómo interactuar con el espacio físico. Sin embargo, por sí mismo no ejecuta ninguna acción, por lo que requiere la colaboración de Gemini Robotics 1.5.

Por ejemplo, al clasificar ropa: cuando se le pide al robot que separe una pila de ropa en blancos y colores, Gemini Robotics-ER 1.5 procesará la solicitud y analizará las imágenes del entorno físico. Este sistema de IA también puede acceder a herramientas como la búsqueda de Google para recopilar más datos. Luego, el modelo ER genera instrucciones en lenguaje natural que proporcionan los pasos específicos que el robot debe seguir para completar la tarea.

La innovación de esta arquitectura de doble modelo radica en separar el razonamiento y la ejecución. El modelo de razonamiento se enfoca en entender los requisitos de la tarea y las condiciones del entorno, elaborando un plan detallado; el modelo de ejecución se encarga de convertir estos planes en acciones específicas del robot. Este enfoque de división de responsabilidades permite que el sistema robótico tenga tanto la capacidad de pensamiento complejo como la eficiencia de ejecución precisa.

Desde la perspectiva de las tendencias tecnológicas, este avance podría marcar un punto de inflexión importante en la evolución de la tecnología robótica, pasando de la especialización a la generalización. Los robots tradicionales requieren una gran cantidad de entrenamiento y ajuste para cada nueva tarea, mientras que los robots con capacidad de IA generativa podrían adaptarse rápidamente a nuevos escenarios de trabajo mediante instrucciones en lenguaje natural.

Aunque esta tecnología aún se encuentra en una etapa temprana, podría enfrentar diversos desafíos en su implementación real. El rendimiento de los robots en entornos reales complejos, la seguridad, el control de costos y otros problemas necesitan resolverse. Pero el intento de DeepMind ciertamente ha abierto una dirección prometedora para el futuro de la tecnología robótica.

A medida que avanza la tecnología de IA, podríamos estar a punto de presenciar un momento histórico en el que los robots dejan de ser simples ejecutores de tareas únicas para convertirse en verdaderos asistentes inteligentes.