En un entorno cada vez más competitivo en el campo de la inteligencia artificial, el equipo Seed de ByteDance lanzó oficialmente el 13 de mayo su último modelo multimodal grande, Seed1.5-VL, diseñado para allanar el camino hacia el avance de las tecnologías de agentes inteligentes. Este modelo ha sido preentrenado con más de 3 billones de tokens de datos multimodales y no solo posee una capacidad poderosa de comprensión e inferencia multimodal generalizada, sino que también reduce significativamente los costos de inferencia.
Comparado con Gemini2.5Pro recientemente lanzado por Google, Seed1.5-VL se mantiene al nivel en términos de rendimiento. Gemini2.5Pro soporta la comprensión unificada de imágenes, videos, audio y código, y lidera a GPT-4.0 en múltiples pruebas de referencia. El equipo Seed de ByteDance señaló que, aunque Seed1.5-VL tiene solo 20 mil millones de parámetros activos, alcanzó el mejor rendimiento actual (SOTA) en 38 de los 60 benchmarks públicos, incluidas 14 de 19 pruebas de video y 3 de 7 tareas de代理 gráficos de usuario (GUI).
En cuanto a sus capacidades específicas, Seed1.5-VL muestra habilidades excepcionales en razonamiento visual, preguntas y respuestas sobre imágenes y comprensión de videos. En tareas relacionadas con agentes inteligentes, el modelo obtuvo resultados de SOTA en 7 tareas GUI. Además, Seed1.5-VL simplifica el diseño del arquitectura reduciendo la demanda computacional, lo que lo hace más adecuado para aplicaciones interactivas, permitiendo realizar tareas complejas como la recolección y procesamiento de información en plataformas como PC y teléfonos móviles.
No obstante, Seed1.5-VL aún enfrenta algunos desafíos. En la percepción visual de granularidad fina, el modelo experimenta dificultades en la cuenta de objetos, identificación de diferencias en imágenes y explicación de relaciones espaciales complejas, especialmente cuando maneja situaciones de disposición irregular, colores similares o partes parcialmente cubiertas. Además, en tareas de razonamiento de alto nivel, a veces genera suposiciones infundadas o respuestas incompletas, lo que indica áreas donde todavía puede mejorar.
A pesar de estos desafíos, el lanzamiento de Seed1.5-VL marca el continuo progreso de ByteDance en tecnología multimodal. Actualmente, el modelo está disponible en Volcano Engine a través de una API abierta, permitiendo a los usuarios experimentar esta nueva tecnología directamente.