アリババのクラウドコンピューティング部門が、最新のAIモデル「Qwen2-VL」を発表しました。このモデルの最大の特長は、画像や動画を含む視覚情報を理解できる点です。なんと20分間の動画をリアルタイムで分析できるほどの高い能力を備えています。

image.png

製品入口: https://qwenlm.github.io/blog/qwen2-vl/

MetaのLlama 3.1、OpenAIのGPT-4o、AnthropicのClaude 3Haiku、GoogleのGemini-1.5Flashといった他の最先端モデルと比較しても、サードパーティのベンチマークテストで非常に優れた成績を収めています。

アリババは、複雑な大学レベルの問題解決、数学的能力、文書と表の理解、多言語テキスト画像の理解、一般的な場面での質問応答、動画の理解、そしてエージェントベースのインタラクションという6つの重要な側面からモデルの視覚能力を評価しました。72Bパラメーターのモデルは、多くの指標でトップレベルのパフォーマンスを示し、GPT-4oやClaude 3.5-Sonnetなどのクローズドソースモデルを上回る結果となりました。特に、文書理解において顕著な優位性を示しています。

image.png

非常に強力な画像・動画分析能力

Qwen2-VLは、視覚データの理解と処理能力を向上させることを目的としています。静止画の分析だけでなく、動画の内容を要約し、関連する質問に答え、リアルタイムでオンラインチャットサポートを提供することもできます。

Qwen研究チームがGitHubで公開した、新しいQwen2-VLシリーズモデルに関するブログ記事にもあるように、「静止画に加えて、Qwen2-VLはその能力を動画コンテンツ分析にまで拡張しています。動画の内容を要約し、関連する質問に答え、リアルタイムで継続的な会話の流れを維持し、リアルタイムチャットサポートを提供します。この機能により、動画コンテンツから直接抽出された洞察や情報を提供することで、パーソナルアシスタントとして機能することができます。」

さらに重要なのは、20分を超える動画を分析し、その内容に関する質問に答えることができるということです。オンライン学習、テクニカルサポート、または動画コンテンツの理解が必要なあらゆる場面で、Qwen2-VLは強力なアシスタントとなるでしょう。公式は、以下の動画を正しく分析・説明した新しいモデルの例を示しています。

また、Qwen2-VLは英語、中国語、複数のヨーロッパ言語に加え、日本語、韓国語、アラビア語、ベトナム語など、多くの言語に対応しており、世界中のユーザーが簡単に使用できます。アリババは、その能力をよりよく理解してもらうために、関連するアプリケーション例をGitHubで公開しています。

3つのバージョン

この新しいモデルには、Qwen2-VL-72B(720億パラメーター)、Qwen2-VL-7B、Qwen2-VL-2Bの3つの異なるパラメーターバージョンのモデルがあります。7Bと2Bのバージョンは、オープンソースの緩やかなApache2.0ライセンスで提供されており、企業は自由に商業目的で使用できます。

ただし、最大の72Bバージョンは現在公開されておらず、専用のライセンスとAPIを通じてのみアクセスできます。

さらに、Qwen2-VLは、異なる解像度の画像を処理し、視覚解釈の一貫性と正確性を確保するNaive Dynamic Resolutionサポートや、テキスト、画像、動画間で位置情報を同期して捕捉・統合するMultimodal Rotary Position Embedding(M-ROPE)システムなど、いくつかの新しい技術的特徴を導入しています。

Qwen2-VLの発表は、視覚言語モデル技術の新たなブレークスルーを意味します。アリババのQwenチームは、これらのモデルの機能向上と、より多くのアプリケーションシナリオの探求に今後も取り組むと述べています。

重要なポイント:

🌟 **強力な動画分析能力**: 20分以上の動画コンテンツをリアルタイムで分析し、関連する質問に答えることができます!

✅ 🌍 **多言語対応**: 多言語に対応しており、世界中のユーザーが簡単に使用できます!

✅ 📦 **オープンソースバージョン利用可能**: 7Bと2Bのバージョンはオープンソースであり、企業は自由に使用できます。革新的なチームに最適です!