今日ますます激化する人工知能分野において、字節跳動の Seed チームは5月13日に正式に、最新のマルチモーダル大規模モデル「Seed1.5-VL」を発表しました。このモデルは、知能エージェント技術の進展を促進することを目指しています。同モデルは、3兆以上のトークンのマルチモーダルデータを事前学習しており、強力な汎用的なマルチモーダル理解・推論能力を持ちながら、推論コストも大幅に削減しています。

Googleが最近発表したGemini2.5Proと比較すると、Seed1.5-VLはパフォーマンス面で互角です。GoogleのGemini2.5Proは画像、ビデオ、音声、コードの統合的理解をサポートしており、複数のベンチマークテストでGPT-4.0を上回っています。字節跳動のSeedチームによると、Seed1.5-VLのアクティブパラメータはわずか200億ですが、60の公開評価基準の中で、38の基準で最新最適性能(SOTA)を達成しており、そのうちビデオベンチマーク19件中14件、GUI(グラフィカルユーザーインターフェース)エージェントタスク7件中3件で優れた成果を収めています。

image.png

能力面では、Seed1.5-VLは視覚推論、画像質疑応答、ビデオ理解など、卓越した能力を示しています。知能エージェント関連のタスクでは、このモデルは7つのGUIタスクでSOTAの成果を達成しています。さらに、Seed1.5-VLはアーキテクチャを簡素化し、計算要件を低減することで、インタラクティブなアプリケーションにも適しており、PCやスマホなどの異なるプラットフォーム上で複雑なタスク、例えば情報の収集・処理などが可能です。

image.png

しかし、Seed1.5-VLにはいくつかの課題もあります。微細な視覚認識において、目標の数え上げ、画像差異認識、複雑な空間的な関係解釈などで若干の困難が見られます。特に不規則な配置、類似色、部分的な隠蔽がある場合に顕著です。また、高次元の推論タスクでは、無根拠な仮定や不完全な応答が現れることもあり、これらの分野でのさらなる改善が必要です。

それでも、Seed1.5-VLのリリースは、字節跳動のマルチモーダル技術における継続的な進展を示しています。このモデルはすでに火山エンジン上でAPIとして提供されており、ユーザーは新しい技術を直接体験することができます。