ByteDance lanza un nuevo modelo de gran lenguaje multimodal que desafía a Google Gemini 2.5 Pro

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · May 14, 2025

2

En un entorno cada vez más competitivo en el campo de la inteligencia artificial, el equipo Seed de ByteDance lanzó oficialmente el 13 de mayo su último modelo multimodal grande, Seed1.5-VL, diseñado para allanar el camino hacia el avance de las tecnologías de agentes inteligentes. Este modelo ha sido preentrenado con más de 3 billones de tokens de datos multimodales y no solo posee una capacidad poderosa de comprensión e inferencia multimodal generalizada, sino que también reduce significativamente los costos de inferencia.

Comparado con Gemini2.5Pro recientemente lanzado por Google, Seed1.5-VL se mantiene al nivel en términos de rendimiento. Gemini2.5Pro soporta la comprensión unificada de imágenes, videos, audio y código, y lidera a GPT-4.0 en múltiples pruebas de referencia. El equipo Seed de ByteDance señaló que, aunque Seed1.5-VL tiene solo 20 mil millones de parámetros activos, alcanzó el mejor rendimiento actual (SOTA) en 38 de los 60 benchmarks públicos, incluidas 14 de 19 pruebas de video y 3 de 7 tareas de代理 gráficos de usuario (GUI).

En cuanto a sus capacidades específicas, Seed1.5-VL muestra habilidades excepcionales en razonamiento visual, preguntas y respuestas sobre imágenes y comprensión de videos. En tareas relacionadas con agentes inteligentes, el modelo obtuvo resultados de SOTA en 7 tareas GUI. Además, Seed1.5-VL simplifica el diseño del arquitectura reduciendo la demanda computacional, lo que lo hace más adecuado para aplicaciones interactivas, permitiendo realizar tareas complejas como la recolección y procesamiento de información en plataformas como PC y teléfonos móviles.

No obstante, Seed1.5-VL aún enfrenta algunos desafíos. En la percepción visual de granularidad fina, el modelo experimenta dificultades en la cuenta de objetos, identificación de diferencias en imágenes y explicación de relaciones espaciales complejas, especialmente cuando maneja situaciones de disposición irregular, colores similares o partes parcialmente cubiertas. Además, en tareas de razonamiento de alto nivel, a veces genera suposiciones infundadas o respuestas incompletas, lo que indica áreas donde todavía puede mejorar.

A pesar de estos desafíos, el lanzamiento de Seed1.5-VL marca el continuo progreso de ByteDance en tecnología multimodal. Actualmente, el modelo está disponible en Volcano Engine a través de una API abierta, permitiendo a los usuarios experimentar esta nueva tecnología directamente.

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

ByteDance lanza un nuevo modelo de gran lenguaje multimodal que desafía a Google Gemini 2.5 Pro

AIbase基地

Este artículo proviene de AIbase Daily