El modelo de inteligencia artificial insignia Gemini 2.5 Pro de Google ha mejorado aún más su capacidad para comprender videos. Este modelo no solo puede analizar videos de hasta 6 horas, sino que también cuenta con una ventana de contexto de hasta 2 millones de tokens y, por primera vez, permite la interpretación directa de enlaces de YouTube a través de una API. Según los datos oficiales, el modelo alcanzó un 84.7% de precisión en las pruebas del benchmark VideoMME, lo que está muy cerca del nivel superior de la industria, con un 85.2%. Esto demuestra su potente capacidad. Esta tecnología innovadora ya está disponible para los desarrolladores a través de Google AI Studio.

Gemini 2.5 Pro, gracias a su amplia ventana de contexto, puede procesar alrededor de 6 horas de contenido de video en una sola ejecución (con muestreo a 1 fotograma por segundo y cada fotograma representando 66 tokens). Ahora, los desarrolladores pueden introducir enlaces de YouTube directamente mediante una simple llamada a la API, permitiendo que el modelo entienda, analice y transforme automáticamente el contenido de los videos. En la demostración del video de apertura de Google Cloud Next '25, el modelo identificó 16 segmentos diferentes de presentaciones de productos, combinando claves de audio y video para localizar el contenido, mostrando así su capacidad de comprensión profunda.

QQ20250512-090756.jpg

Lo que es aún más impresionante es su capacidad para localizar instantáneamente y realizar análisis intertemporales. Gemini 2.5 Pro puede localizar rápidamente momentos clave dentro de un video según las indicaciones del usuario, como estadísticas precisas sobre 17 eventos independientes de uso de teléfonos móviles en un video continuo. Su capacidad de razonamiento lógico incluso soporta tareas complejas de inferencia temporal, analizando el orden o frecuencia de los eventos en el video. La tecnología detrás de esto es la combinación de técnicas 3D-JEPA y fusión multimodal, integrando información de audio y video con datos de código, lo que mejora significativamente la profundidad y precisión de la comprensión de videos por parte del modelo.

En términos de aplicaciones, Gemini 2.5 Pro abre posibilidades innovadoras en varios campos. En la educación, el modelo puede generar aplicaciones interactivas basadas en videos educativos, aumentando significativamente la participación de los estudiantes; en la industria creativa, puede convertir contenido de video en animaciones interactivas en p5.js o visualizaciones, proporcionando herramientas eficientes para los creadores; en los escenarios de análisis empresarial, el modelo puede analizar inteligentemente videos de reuniones o presentaciones de productos, extraer información clave y generar informes profesionales.

Es importante destacar que Google ha reducido aún más los costos de procesamiento de videos largos mediante un modo de procesamiento de baja resolución (utilizando solo 66 tokens por fotograma). Las pruebas oficiales indican que este modo económico solo disminuye el rendimiento en un 0.5% en las pruebas del benchmark VideoMME, logrando un equilibrio excelente entre costo y rendimiento, proporcionando a los desarrolladores más opciones en sus aplicaciones prácticas.

El avance en la comprensión de videos de Gemini 2.5 Pro marca el cambio de los modelos de IA centrados en el lenguaje hacia productos multimodales impulsados por videos. Su ventana de contexto de 2 millones de tokens y la funcionalidad de interpretación de enlaces de YouTube ofrecen a los desarrolladores un espacio creativo sin precedentes, especialmente en áreas de alto valor como la educación, el entretenimiento y el análisis empresarial. Sin embargo, los expertos del sector señalan que aún hay margen para mejorar la optimización de retraso en la gestión de videos extremadamente largos. Google planea expandir aún más la ventana de contexto e integrar más funciones multimodales, como el procesamiento en tiempo real de transmisiones, para satisfacer la creciente demanda del mercado y seguir liderando el desarrollo de la capacidad visual de la IA.