O WeChat oficial da Engine Volcânica anunciou hoje a liberação oficial do modelo de linguagem Doubao 1.6-vision. Segundo informações, o modelo de linguagem Doubao 1.6-vision é o primeiro modelo visual com capacidade de chamada de ferramentas da família de modelos Doubao, possui uma capacidade mais forte de compreensão e raciocínio multimodal geral e suporta a API Responses.
O modelo de linguagem Doubao 1.6-vision inclui três vantagens principais, incluindo:
Chamada de ferramentas, compreensão visual mais precisa. Com a capacidade diferenciada de chamada de ferramentas, a imagem é integrada à sua cadeia de pensamento, permitindo processamento detalhado das imagens, como localização, recorte, seleção de pontos, desenho de linhas, zoom, rotação, etc. Além disso, ao simular o processo de raciocínio visual humano "da varredura global para o foco local", aumenta a explicabilidade do raciocínio, enquanto conclui com eficiência e precisão as operações nas imagens.
Desenvolvimento de aplicações mais eficiente. Suporta a API Responses, permitindo escolher livremente a chamada de ferramentas, reduz significativamente a quantidade de código no processo de desenvolvimento do Agent, melhorando a eficiência do desenvolvimento e tornando o desenvolvimento de aplicações dos desenvolvedores mais eficiente.
Maior relação custo-benefício do modelo. Em comparação com o modelo anterior de compreensão visual Doubao-1.5-thinking-vision-pro, o custo total foi reduzido em aproximadamente 50%, permitindo obter um desempenho mais forte com um custo menor, e a relação custo-benefício foi novamente elevada!