Hugging Face、2Bパラメーターのビジョン言語モデルSmolVLMを発表:一般的なデバイスでも高速実行可能
近年、機械学習モデルはビジョンと言語タスクにおいて需要が高まっていますが、多くのモデルは膨大な計算資源を必要とし、個人デバイスでは効率的に動作しません。特にノートパソコン、コンシューマー向けGPU、モバイルデバイスなどの小型デバイスは、ビジョン言語タスクの処理において大きな課題に直面しています。Qwen2-VLを例にとると、優れた性能を誇る一方で、ハードウェア要件が高く、リアルタイムアプリケーションでの利用可能性を制限しています。そのため、リソースの少ない環境でも動作する軽量モデルの開発が求められています。