LLaVA-OneVision-1.5が発表され、画像・動画処理可能なマルチモーダルモデルに進化。オープンなトレーニングフレームワークを提供し、3段階の訓練プロセスで高品質なモデル構築を可能に。....
lmms-lab
LLaVA-OneVision-1.5は、完全にオープンソースの一連の大型マルチモーダルモデルで、ネイティブ解像度の画像でトレーニングすることで、低コストで高度な性能を実現しています。このモデルは、複数のマルチモーダルベンチマークテストで卓越した性能を発揮し、Qwen2.5-VLなどの競合モデルを上回っています。