OpenBMBチームは先日、同シリーズ最新にして最も強力なマルチモーダル大規模言語モデル(MLLM)であるMiniCPM-o2.6を発表しました。MiniCPM-o2.6最大の特長は、8億パラメータを持つことで、視覚、音声、そしてマルチモーダルライブ配信分野において、GPT-4o-202405に匹敵する性能を実現し、オープンソースコミュニティにおいて多機能で効率的な選択肢となっています。

image.png

MiniCPM-o2.6は強力な入力処理能力を備え、画像、動画、テキスト、音声など様々な入力方式に対応し、高品質なテキストと音声出力を提供します。

このモデルの音声モードには、新たにバイリンガルリアルタイム会話機能が追加されました。ユーザーは必要に応じて異なる音声を設定でき、感情、速度、スタイルを制御することも可能です。ロールプレイングや音声クローンなどの面白いアプリケーションにも対応しています。これらの革新により、MiniCPM-o2.6はより豊かなインタラクティブな体験を提供し、ユーザーはより自然でスムーズなコミュニケーションを楽しむことができます。

音声対話における進歩に加え、MiniCPM-o2.6は視覚処理能力においても顕著な進歩を遂げています。強力なOCR(光学文字認識)機能と多言語サポートにより、リアルタイム動画理解をより効率的に行えます。この優れた能力により、モバイルデバイス上でのマルチモーダルライブ配信が初めて実現し、ユーザーはiPadなどのデバイスでライブ配信を行い、よりインタラクティブで面白いコンテンツ共有が可能になりました。

2024年2月以来、MiniCPMシリーズは6つのバージョンがリリースされており、チームはモデルの性能と展開効率の向上を目指しています。このモデルは技術的な革新だけでなく、マルチモーダルインタラクション体験における大きな進歩も示しています。専門分野での応用から日常生活でのエンターテイメントまで、MiniCPM-o2.6はユーザーにとってなくてはならないインテリジェントアシスタントとなるでしょう。

プロジェクトアドレス:https://github.com/OpenBMB/MiniCPM-o