Die offizielle Weibo-Adresse von Volc Engine kündigte heute die offizielle Veröffentlichung des Doubao-Modells 1.6-Vision an. Laut der Einleitung ist das Doubao-Modell 1.6-Vision das erste visuelle tiefes Denkmodell in der Doubao-Modellfamilie mit Fähigkeiten zur Werkzeugaufrufung. Es verfügt über stärkere allgemeine multimodale Verständnis- und Schlussfolgerungsfähigkeiten und unterstützt Responses API.
Das Doubao-Modell 1.6-Vision hat drei Hauptvorteile, darunter:
Werkzeuge aufrufen für eine genauere visuelle Verständnis. Mit der differenzierten Fähigkeit zur Werkzeugaufrufung integriert es Bilder in seinen Gedankengang und ermöglicht die präzise Verarbeitung von Bildern wie Positionierung, Ausschneiden, Punktauswahl, Linienzeichnung, Skalierung und Drehung. Durch die Simulation des menschlichen visuellen Schlussfolgerungsprozesses von „globaler Scan zu lokaler Fokussierung“ verbessert es die Nachvollziehbarkeit der Schlussfolgerung, während es Bildoperationen effizient und genau abschließt.
Effizientere Anwendungsentwicklung. Unterstützt Responses API, wodurch Entwickler selbst entscheiden können, welche Werkzeuge aufgerufen werden sollen, was die Menge an Code im Agent-Entwicklungsprozess erheblich reduziert und die Entwicklungszeit steigert, wodurch die Anwendungsentwicklung für Entwickler effizienter wird.
Größere Kosteneffizienz des Modells. Im Vergleich zum vorherigen visuellen Verständnismodell Doubao-1.5-thinking-vision-pro beträgt die Gesamtkostenreduzierung etwa 50 %, was stärkere Leistung bei niedrigeren Kosten ermöglicht und die Kosteneffizienz weiter verbessert!