UCSC-VLAA
VLAA-Thinkerは革新的な視覚言語モデルで、画像とテキストの入力を同時に処理し、高品質なテキスト出力を生成することができます。このモデルは論文「SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models」の研究成果に基づいて開発され、R1に類似した推論能力に焦点を当てています。