OpenBMBチームは最近、新世代のマルチモーダル大規模モデル「MiniCPM-V4.0」が正式にオープンソースでリリースされたことを発表しました。このモデルは軽量なアーキテクチャと優れた性能により、「スマホ上のGPT-4V」として注目されており、モバイルデバイスでのAI応用において画期的な突破をもたらすことが期待されています。

MiniCPM-V4.0の核心はその巧妙な設計にあります。これはSigLIP2-400MMiniCPM4-3Bを基盤として構築されており、パラメータ数はわずか4.1Bですが、画像、複数画像、および動画の理解において非常に強力な能力を示しています。これにより、単一の画像だけでなく、複雑な複数画像の関連性や動画のセグメントを処理できるようになり、ユーザーにとってよりスマートなインタラクティブ体験を提供します。

パラメータ数が少ないにもかかわらず、MiniCPM-V4.0の性能は驚くべきものです。オープンコンパスの八大主要評価ベンチマークでは、このモデルの平均得点は69.0

MiniCPM-V4.0のもう一つの大きな特徴は、モバイルデバイスに特化した高度な最適化です。最新のiPhone16Pro Max

開発者の使用ハードルを下げることを目的として、OpenBMBチームは豊富なエコシステムサポートを提供しています。MiniCPM-V4.0は、llama.cppOllamavllm_projectなどの主流フレームワークと互換性があり、開発者に柔軟かつ多様な展開選択肢を提供します。チームはさらに専用のiOSアプリCookbook

MiniCPM-V4.0のリリースにより、マルチモーダル技術の応用が新たな道を開きました。主な応用シナリオは広範囲に及び、以下のようなものがあります:

  • 画像分析と複数ステップ対話: ユーザーは画像をアップロードし、モデルに内容分析を依頼し、それに基づいて継続的な対話を進めることができます。

  • 動画理解: 動画の内容を分析し、動画情報を処理する必要があるシナリオに解決策を提供します。

  • OCRと数学的推論: 画像中の文字認識や数学問題の解決能力を持ち、実際の仕事や学習における実用性を大幅に向上させます。

MiniCPM-V4.0のオープンソース化は、国内のAIチームが軽量モデルの開発において卓越した実力を示していることを示しており、世界中の開発者にモバイル端末のマルチモーダル技術を探索するための強力なツールを提供しています。これにより、AIの普及化への一歩を確かなものにしています。