En la gira de innovación de AI FORCE LINK organizada en Shanghái por ByteDance, se lanzó oficialmente el último modelo multimodal de visión y lenguaje llamado Seed1.5-VL. Este modelo, con sus excepcionales capacidades de comprensión e inferencia multimodales, fue el centro de atención del evento y atrajo la atención de muchos expertos del sector y desarrolladores.

El rasgo destacado de Seed1.5-VL es su capacidad mejorada de comprensión e inferencia multimodales. En comparación con las versiones anteriores, Seed1.5-VL ha mejorado significativamente tanto en velocidad como en precisión en la localización visual y la inferencia. Además, la función adicional de comprensión de videos y agente multimodal hace que se desempeñe aún mejor al procesar tareas complejas.

image.png

Alta eficiencia con un costo reducido

A pesar de que los parámetros activados de Seed1.5-VL son solo 20B, su rendimiento ya está a la altura del Gemini2.5Pro. En 60 benchmarks públicos, Seed1.5-VL obtuvo resultados líderes en 38 tareas, especialmente en comprensión de videos, razonamiento visual y capacidades de agente multimodal, liderando la industria.

En términos de costos de inferencia, Seed1.5-VL también se destaca, con un costo de entrada de solo 0.003 yuanes por cada mil tokens y un costo de salida de solo 0.009 yuanes por cada mil tokens, lo que le otorga una excelente relación calidad-precio.

image.png

API fácil de integrar

Actualmente, Seed1.5-VL está disponible para acceso completo a través de la API de ByteDance. Los desarrolladores solo necesitan iniciar sesión y seleccionar "Doubao-1.5-thinking-vision-pro" para acceder rápidamente a sus capacidades y crear sus propios asistentes visuales de IA, sistemas de inspección, agentes interactivos o próximas cámaras inteligentes.

Para verificar el rendimiento real de Seed1.5-VL, los periodistas realizaron varias pruebas. Al cargar una imagen de estantería, Seed1.5-VL pudo identificar rápidamente productos específicos y calcular sus precios. En problemas complejos de razonamiento gráfico para empleados públicos, Seed1.5-VL demostró su potente capacidad de inferencia, capturando y deduciendo patrones en poco tiempo para completar tareas lógicas difíciles.

Seed1.5-VL, como el último modelo multimodal de la serie Seed, después de ser preentrenado en más de 3T tokens de datos multimodales, muestra un rendimiento excepcional en múltiples tareas como preguntas y respuestas de imágenes, comprensión de diagramas y razonamiento visual. Este modelo consta de tres componentes principales: el módulo de codificación visual SeedViT, un adaptador de perceptrón multicapa (MLP) para proyección de características visuales y un gran modelo de lenguaje basado en arquitectura MoE llamado Seed1.5-LLM.

  • Github: https://github.com/ByteDance-Seed/Seed1.5-VL

  • https://seed.bytedance.com/zh/tech/seed1_5_vl