アリババの人工知能部門は今日、Qwen3-VLビジュアル言語モデルシリーズのコンパクト版を正式に発表しました。40億および80億パラメータのバージョンを提供し、これは先進的なマルチモーダルAI技術がエッジデバイスやリソース制限のある環境での広範な応用への大きな飛躍を示しています。

性能の飛躍、小規模モデルが大手企業と匹敵

今回の発表された4Bおよび8Bモデルは、InstructおよびThinkingバージョンを提供しており、STEM推論、視覚的質問応答(VQA)、光学文字認識(OCR)、動画理解、代理タスクなどの核心的なマルチモーダル能力を最適化しています。

公表されたベンチマークテスト結果によると、これらの小型モデルは複数のカテゴリで優れた性能を発揮し、Gemini2.5Flash LiteやGPT-5Nanoなどの競合製品を上回っています。特に注目すべき点は、いくつかの分野において、6か月前に発表されたより大規模なQwen2.5-VL-72Bモデルと同等の性能を達成できることです。これにより、高いパラメータ効率性が示されています。

QQ20251015-103538.png

リソースの最適化、AIの民主化を推進

新モデルの重要な特徴は、VRAM使用量の大幅な削減であり、これにより、消費向けハードウェアであるノートPCやスマートフォンで直接実行することが可能になります。さらに効率を向上させるために、アリババはFP8量子化バージョンも提供しており、コア能力を犠牲にすることなくリソース消費をさらに削減しています。Qwenチームの一員は、「小さなVLモデルは配置に適しており、スマートフォンやロボットの分野において非常に重要な意味を持っています」と述べました。

迅速なアップデート、オープンソース共有

このコンパクトモデルの登場は、9月に最初に公開されたQwen3-VLシリーズ(最大2,350億パラメータのスタンドアローンモデル)のロードマップを引き継いでいます。以前、アリババは10月初頭に30B-A3Bバリアントを発表しており、わずか30億のアクティブパラメータでGPT-5MiniやClaude4Sonnetと同等のベンチマーク結果を得ています。このような迅速なアップデートは、業界内でアリババが高性能AIの民主化を推進する強力な証拠として見なされています。特にロボットなどの身体的なシステムに適用されることが期待されています。

アドレス:

https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks