アリババのオープンソースプロジェクトであるMNN(Mobile Neural Network)は、そのモバイル向けマルチモーダル大規模モデルアプリ「MnnLlmApp」の最新バージョンを公開し、Qwen-2.5-Omni-3Bおよび7Bモデルのサポートを追加しました。この完全にオープンソースでモバイル端末上でローカルに動作する大規模モデルアプリは、テキスト-to-テキスト、画像-to-テキスト、音声-to-テキスト、テキスト-to-画像生成など、さまざまなモードのタスクに対応しており、その高いパフォーマンスと低リソース消費により多くの開発者から注目を集めています。AIbaseによると、今回のMNNのアップデートにより、モバイル端末でのマルチモーダルAIの普及がさらに促進されました。

QQ20250513-094907.jpg

プロジェクトURL:

https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md

主要な特長: マルチモーダル能力の大幅強化

新バージョンのMnnLlmAppは、Qwen-2.5-Omni-3Bと7Bモデルを統合しており、アリクラウドQwenチームのThinker-Talkerアーキテクチャに基づいて、テキスト、画像、音声、ビデオの総合的な処理能力を実現しています。AIbaseによれば、以下の機能をサポートしています:

テキスト-to-テキスト: 高品質な対話、レポート、コードの生成、クラウドベースモデルと同等のパフォーマンスを提供します。

画像-to-テキスト: 画像内の文字認識やシーン説明を行い、ドキュメントスキャンや視覚的質問応答に適応します。

音声-to-テキスト: 高効率な音声の字幕化を行い、複数の言語をサポートしています。

テキスト-to-画像: 扩散モデルを使用して高品質な画像生成を行い、クリエイティブデザインの要件を満たします。

ソーシャルメディアからのフィードバックでは、開発者がQwen-2.5-Omni-3Bが24GB GPU上で動作した際のパフォーマンスに特に満足していることが示されています。このモデルはOmniBenchベンチマークテストで、7Bモデルの90%以上のマルチモーダルパフォーマンスを維持しながら、メモリ使用量を50%以上削減(60.2GB → 28.2GB)しています。

技術的優位性: ローカル推論と極限まで最適化

MNNフレームワークは軽量かつ高性能で、モバイル端末やエッジデバイスの最適化に特化しています。AIbaseの編集チームは、新バージョンのMnnLlmAppがCPUでの推論において非常に優れたパフォーマンスを発揮することを指摘しています。プリフェッチ速度はllama.cppより8.6倍速く、デコード速度は2.3倍速いです。アプリは完全にローカルで動作し、ネットワーク接続なしでマルチモーダルタスクを処理できるため、データプライバシーを外部サーバーに送信することはありません。サポートされるモデルの範囲は広く、Qwen、Gemma、Llama、Baichuanなどの主要なオープンソースモデルが含まれており、開発者はGitHubから直接ダウンロードしてアプリを構築できます。また、MNNはFlashAttention-2のサポートも提供し、長い文脈処理の効率を向上させます。

適用可能なシナリオ: 開発から生産への移行

MnnLlmAppのマルチモーダル能力により、さまざまなシナリオで潜在力を発揮します:

教育・ビジネス: 文書のスキャンや会議記録の音声-to-テキスト変換に役立ちます。

クリエイティブデザイン: 宣伝素材やアート作品の生成に活用できます。

スマートアシスタント: 音声インタラクションをローカルで実現するアプリケーションを構築します。例えば、オフラインナビゲーションやカスタマーサポートアシスタントなど。

開発者学習: オープンソースコードや詳細なドキュメントは、モバイル端末での大規模モデル開発の参考となります。

AIbaseの分析によれば、MNNのオープンソース特性とQwen-2.5-Omniのサポートにより、開発者がモバイルマルチモーダルAIを探索する理想的なプラットフォームとなっています。ソーシャルメディアでは、開発者がMnnLlmAppの推論速度(Llama3.18Bでプリフェッチ28tokens/s)が最高峰ではありませんが、マルチモーダル統合と使いやすさによりプロトタイプ開発には十分対応可能であることを指摘しています。

業界背景: モバイルAIのオープンソースブーム

MNNのアップデートは、モバイルAI競争が激化するタイミングで行われました。DeepSeekのR1モデルやBaichuan-Omniも最近、ローカルデプロイメントとコスト削減を重視したオープンソースマルチモーダルソリューションを発表しました。しかし、MNNはアリエコシステムのサポートとハードウェア最適化(例えばAndroidデバイスへの深い適合)により、パフォーマンスと互換性で優位に立っています。AIbaseは、アリクラウドが200を超える生成型AIモデルをオープンソース化し、QwenシリーズのHugging Faceでのダウンロード数が8000万を超えたことを指摘し、そのグローバルな影響力を示しています。また、MnnLlmAppのiOS版もリリースされ、さらにマルチプラットフォーム対応を拡大しています。

モバイルマルチモーダルの未来

MnnLlmAppの今回のアップデートは、マルチモーダルAIがクラウドからエッジデバイスへの急速な移行を象徴しています。AIbaseの編集チームは、Qwen-2.5-Omniモデルがさらなる最適化(例えば、より長いビデオや低い遅延の音声生成をサポート)を続けることで、MNNがスマートホーム、車載システム、オフラインアシスタント分野でさらに大きな役割を果たすと予測しています。しかし、ソーシャルメディアでは、モデルロードプロセス(外部モデルのソースコードから構築する必要がある)が簡素化されていない点について、ユーザーの利便性を向上させる必要があるという意見も指摘されています。