UCSC-VLAA
VLAA-Thinker是一個創新的視覺語言模型,能夠同時處理圖像和文本輸入,並生成高質量的文本輸出。該模型基於論文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果開發,專注於類似R1的推理能力。