Sakana AI, un laboratorio de investigación de inteligencia artificial centrado en algoritmos inspirados en la naturaleza, ha presentado recientemente un innovador modelo de lenguaje adaptativo llamado Transformer² (Transformer al cuadrado). Este modelo, sin necesidad de costosos ajustes finos, puede aprender y adaptarse dinámicamente a nuevas tareas durante el proceso de inferencia, lo que representa un paso importante en el desarrollo de los modelos de lenguaje grandes (LLM).

La innovación central de Transformer² radica en su exclusivo mecanismo de ajuste de pesos dinámico en dos pasos. Primero, analiza la solicitud del usuario entrante para comprender las necesidades de la tarea; luego, mediante técnicas matemáticas, utiliza la descomposición en valores singulares (SVD) para alinear los pesos del modelo con las necesidades de la tarea. Al ajustar selectivamente los componentes clave de los pesos del modelo, Transformer² puede optimizar el rendimiento en tiempo real sin necesidad de un costoso reentrenamiento. Esto contrasta con los métodos de ajuste fino tradicionales, que requieren mantener los parámetros estáticos después del entrenamiento o utilizar métodos como LoRA (Low-Rank Adaptation), que solo modifican una pequeña parte de los parámetros.

QQ20250124-104642.png

Entrenamiento e inferencia de Transformer al cuadrado (Fuente: arXiv)

Para lograr este ajuste dinámico, los investigadores emplearon el método de ajuste fino de valores singulares (SVF). Durante el entrenamiento, SVF aprende un conjunto de representaciones de habilidades, llamadas vectores z, a partir de los componentes SVD del modelo. Durante la inferencia, Transformer² analiza la indicación para determinar las habilidades necesarias y luego configura los vectores z correspondientes, lo que permite una respuesta personalizada para cada indicación.

Los resultados de las pruebas muestran que Transformer² supera a los modelos LoRA en diversas tareas, como matemáticas, codificación, razonamiento y preguntas y respuestas visuales, con menos parámetros. Aún más notable es su capacidad de transferencia de conocimiento: los vectores z aprendidos de un modelo se pueden aplicar a otro, lo que indica un potencial de aplicación amplio.

QQ20250124-104627.png

Comparación de Transformer al cuadrado (SVF en la tabla) con modelos base y LoRA (Fuente: arXiv)

Sakana AI ha publicado el código de entrenamiento de los componentes de Transformer² en su página de GitHub, abriendo la puerta a otros investigadores y desarrolladores.

A medida que las empresas exploran continuamente las aplicaciones de los LLM, las técnicas de personalización durante la inferencia se están convirtiendo en una tendencia dominante. Transformer², junto con otras tecnologías como Titans de Google, está cambiando la forma en que se utilizan los LLM, permitiendo a los usuarios ajustar dinámicamente los modelos según sus necesidades específicas sin necesidad de reentrenamiento. Este avance tecnológico hará que los LLM sean más útiles y prácticos en un rango más amplio de campos.

Los investigadores de Sakana AI afirman que Transformer² representa un puente entre la inteligencia artificial estática y la inteligencia vital, sentando las bases para herramientas de inteligencia artificial eficientes, personalizadas y completamente integradas.