Vary-toyは、Qwen-1.8Bをベースとした小型Varyモデルです。改良された視覚語彙を導入することで、Varyのすべての特性に加え、より広範な汎化能力を備えています。具体的には、視覚語彙生成において、自然画像の負例を物体検出で駆動される正例データに置き換えることで、語彙ネットワークの容量を最大限に活用し、自然物体に対応する視覚情報を効率的にエンコードできるようにしました。実験では、DocVQAで65.6%のANLS、ChartQAで59.1%の精度、RefCOCOで88.1%の精度、MMVetで29%の精度を達成しました。価格:無料トライアル、有料版価格は未定です。位置付け:リソースが限られている状況下で、研究者が標準的なGPU上でLVLMsのトレーニングとデプロイを行うためのソリューションを提供します。