Tencent
-
输入tokens/百万
输出tokens/百万
24
上下文长度
$4
$12
28
$6
$18
256
01-ai
32
16
UCSC-VLAA
VLAA-Thinker是一个创新的视觉语言模型,能够同时处理图像和文本输入,并生成高质量的文本输出。该模型基于论文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果开发,专注于类似R1的推理能力。