La cuenta oficial de Weibo de Volc Engine anunció hoy el lanzamiento oficial del modelo grande Doubao 1.6-vision. Según la introducción, el modelo grande Doubao 1.6-vision es el primer modelo de pensamiento profundo visual en la familia de modelos grandes Doubao con capacidades de llamada de herramientas. Tiene una mayor comprensión y razonamiento multimodal general y admite Responses API.

image.png

El modelo grande Doubao 1.6-vision incluye tres ventajas principales, entre ellas:

Uso de herramientas para una comprensión visual más precisa. Utilizando la capacidad diferenciada de llamada de herramientas, integra imágenes en su cadena de pensamiento, permitiendo un procesamiento preciso de imágenes como posicionamiento, recorte, selección de puntos, dibujo de líneas, escalamiento y rotación. Al simular el proceso de razonamiento visual humano desde "escaneo global a enfoque local", mejora la interpretabilidad del razonamiento mientras completa eficientemente y con precisión las operaciones de imagen.

Desarrollo de aplicaciones más eficiente. Admite Responses API, lo que permite a los desarrolladores elegir independientemente qué herramientas llamar, reduciendo significativamente la cantidad de código en el proceso de desarrollo de Agentes y mejorando la eficiencia del desarrollo, haciendo que el desarrollo de aplicaciones sea más eficiente para los desarrolladores.

Más rentabilidad del modelo. En comparación con la versión anterior del modelo de comprensión visual Doubao-1.5-thinking-vision-pro, el costo total se ha reducido en aproximadamente un 50%, liberando un rendimiento más fuerte a un costo más bajo, y la rentabilidad ha mejorado aún más!