O CogVLM é um poderoso modelo de linguagem visual de código aberto. O CogVLM-17B possui 10 bilhões de parâmetros visuais e 7 bilhões de parâmetros de linguagem. O CogVLM-17B alcançou desempenho de ponta em 10 benchmarks clássicos de multimodalidade, incluindo NoCaps, Flicker30k Captions, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA e TDIUC, e ficou em segundo lugar em VQAv2, OKVQA, TextVQA, COCO Captions, superando ou igualando o PaLI-X 55B. O CogVLM também pode conversar com você sobre imagens.