上海で開催された「火山エンジン FORCE LINK AI ツアー」において、字節跳動は最新のビジュアル-言語マルチモーダルモデルである Seed1.5-VL を正式に発表しました。このモデルは優れた汎用的なマルチモーダル理解力と推論力を備えており、イベントの注目点となり、多くの業界専門家や開発者の関心を集めました。
Seed1.5-VL の特筆すべき点は、その強化されたマルチモーダル理解力と推論力です。前バージョンと比較して、Seed1.5-VL は視覚位置特定と推論の速度および正確性が大幅に向上しています。さらに、新たに導入されたビデオ理解機能とマルチモーダルエージェント機能により、複雑なタスクに対してもより優れたパフォーマンスを発揮します。

超高速かつコスト効率の高いパフォーマンス
Seed1.5-VL のアクティベーションパラメータはわずか20Bですが、そのパフォーマンスは Gemini2.5Pro と同等レベルに達しています。60の公開評価ベンチマークのうち、Seed1.5-VL は38のタスクで SOTA(最先端技術)の結果を達成しており、特にビデオ理解、視覚推論、マルチモーダルエージェント能力において、業界トップクラスの水準を示しています。
推論コスト面でも、Seed1.5-VL は優れたコストパフォーマンスを実現しており、推論入力価格は1,000トークンあたりわずか0.003元、出力価格は1,000トークンあたり0.009元となっています。

手軽なAPIアクセス
現在、Seed1.5-VL は火山エンジン上で完全にAPIとして公開されており、開発者はログイン後に「Doubao-1.5-thinking-vision-pro」を選択することで、迅速にその能力を利用し、独自のAIビジュアルアシスタント、検査システム、インタラクティブエージェント、あるいは次世代のスマートカメラを作成できます。
Seed1.5-VL の実際のパフォーマンスを確認するために、記者は複数のテストを行いました。棚の写真をアップロードすると、Seed1.5-VL は迅速に特定の製品を認識し、その価格を計算します。複雑な公務員向け図形推論問題においても、Seed1.5-VL は強力な推論能力を発揮し、短時間でパターンを捉え、難しい論理課題を完了することができました。
Seed1.5-VL は Seed シリーズの最新世代のマルチモーダルモデルであり、3Tトークン以上のマルチモーダルデータで事前学習されています。画像質問応答、チャート理解、視覚推論など、さまざまなタスクで卓越したパフォーマンスを示しています。このモデルは SeedViT(視覚エンコードモジュール)、視覚特徴投影用の多層パーセプトロン(MLP)アダプター、MoEアーキテクチャに基づく大規模言語モデル Seed1.5-LLM の3つの主要コンポーネントで構成されています。