面壁智能がMiniCPM-o 2.6を発表：モバイル対応のマルチモーダルAI大規模言語モデル

AIbase基地

公開日AIニュース · 1 分で読めます · Jan 15, 2025

297

OpenBMBチームは先日、同シリーズ最新にして最も強力なマルチモーダル大規模言語モデル（MLLM）であるMiniCPM-o2.6を発表しました。MiniCPM-o2.6最大の特長は、8億パラメータを持つことで、視覚、音声、そしてマルチモーダルライブ配信分野において、GPT-4o-202405に匹敵する性能を実現し、オープンソースコミュニティにおいて多機能で効率的な選択肢となっています。

MiniCPM-o2.6は強力な入力処理能力を備え、画像、動画、テキスト、音声など様々な入力方式に対応し、高品質なテキストと音声出力を提供します。

このモデルの音声モードには、新たにバイリンガルリアルタイム会話機能が追加されました。ユーザーは必要に応じて異なる音声を設定でき、感情、速度、スタイルを制御することも可能です。ロールプレイングや音声クローンなどの面白いアプリケーションにも対応しています。これらの革新により、MiniCPM-o2.6はより豊かなインタラクティブな体験を提供し、ユーザーはより自然でスムーズなコミュニケーションを楽しむことができます。

音声対話における進歩に加え、MiniCPM-o2.6は視覚処理能力においても顕著な進歩を遂げています。強力なOCR（光学文字認識）機能と多言語サポートにより、リアルタイム動画理解をより効率的に行えます。この優れた能力により、モバイルデバイス上でのマルチモーダルライブ配信が初めて実現し、ユーザーはiPadなどのデバイスでライブ配信を行い、よりインタラクティブで面白いコンテンツ共有が可能になりました。

2024年2月以来、MiniCPMシリーズは6つのバージョンがリリースされており、チームはモデルの性能と展開効率の向上を目指しています。このモデルは技術的な革新だけでなく、マルチモーダルインタラクション体験における大きな進歩も示しています。専門分野での応用から日常生活でのエンターテイメントまで、MiniCPM-o2.6はユーザーにとってなくてはならないインテリジェントアシスタントとなるでしょう。

プロジェクトアドレス：https://github.com/OpenBMB/MiniCPM-o

MiniCPM-o2.6 マルチモーダル大規模言語モデルオープンソースコミュニティ双方向リアルタイム会話機能

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

ステップスターとゲンリキ・インテリジェンスが戦略的提携

ステップスターとゲンリキ・インテリジェンスは北京において戦略的提携契約を締結しました。両社はそれぞれの技術的優位性を活かし、マルチモーダル大規模言語モデル技術、インテリジェントターミナルエージェント、エンボディッドAIのシナリオにおいて緊密な協力を展開します。今回の提携の目標は「物理世界における推論の実現」であり、共同で「RoboAgent」と呼ばれるインテリジェントロボットを開発し、汎用人工知能（AGI）の現実世界への応用を推進することです。調印式には、ステップスターの創業者兼CEOである姜大昕博士とゲンリキ・インテリジェンスの共同創業者が出席しました。

Apr 24, 2025

智譜(Z.ai)基金、3億元でグローバルオープンソースコミュニティを支援北京追加投資2億元

北京市人工知能産業投資基金は、昨年の投資実績を基に、智譜(Z.ai)に2億元を追加投資することを発表しました。これは、智譜のオープンソースモデルの研究開発とオープンソースコミュニティのエコシステム構築を支援するためです。智譜は、同基金設立以来初のAI大規模モデル企業への投資先であり、現在最も急速に成長している企業でもあります。智譜は、テキスト、推論、音声、画像、ビデオ、コードなど、幅広いモデル能力を有しており、商業化体制も整っています。また、100万人を超える開発者コミュニティと企業ユーザーを抱えています。

Apr 18, 2025

上海人工知能研究所、アップグレード版マルチモーダル大規模言語モデル「書生・万象 3.0」を発表

Apr 17, 2025

国家スパコンプラットフォーム、次世代マルチモーダル大規模言語モデルを発表 AI知能体の発展を促進

Apr 16, 2025

アリババクラウド傘下のAIオープンソースコミュニティ魔搭、MCP広場を正式公開

アリババクラウド傘下のAIオープンソースコミュニティ魔搭（ModelScope）は、最新のMCP（Model Context Protocol、モデルコンテキストプロトコル）広場を正式に公開しました。これは現在、最大規模の中国語MCPコミュニティとなっています。本プラットフォームには、1000種類以上のMCPサービスが掲載されているだけでなく、支付宝やMiniMaxなどの全く新しいMCPサービスも独占的に初公開され、AI開発者にとって豊富なリソースとツールを提供し、AIアプリケーションの革新と実装を促進します。

Apr 15, 2025

170

上海AI研究所がInternVL3シリーズマルチモーダル大規模言語モデルをオープンソース化

OpenGVLabは、InternVL3シリーズモデルのオープンソースリリースを発表しました。これは、マルチモーダル大規模言語モデル（MLLM）分野における新たなマイルストーンとなります。InternVL3シリーズは、1Bから78Bまでの7つのサイズからなるモデル群で、テキスト、画像、ビデオなどの様々な情報を同時に処理でき、優れた総合性能を示しています。

Apr 14, 2025

440

商湯科技、新たなマルチモーダル大規模言語モデルを発表未来のインタラクション時代に向けた布石

4月10日に行われた商湯テクノロジー交流会において、商湯科技は最新のマルチモーダル融合大規模言語モデル「商湯日日新SenseNova V6」と「商湯大装置SenseCore2.0」システムを発表しました。この新型大規模言語モデルは、テキスト、画像、ビデオなど様々な情報形式を統合し、より自然で豊かなインタラクション体験を提供することを目指しています。今回発表されたSenseNova V6シリーズには4つのバージョンが含まれており、中でもSenseNova V6Proが注目を集めています。

Apr 10, 2025

220

Meta、Llama 4大言語モデルを発表：混合専門家アーキテクチャがAIの新時代をリード

Meta社は、最新のオープンソース人工知能モデルLlama 4を発表し、人工知能分野における新たな大きな進歩を示しました。Llama 4はScoutとMaverickの2つのバージョンがあり、AIモデルの機能とパフォーマンスを向上させることを目指しています。Metaによると、Llama 4はテキスト、画像、ビデオ、オーディオなど、複数のデータタイプを処理し、これらの形式間で自由に変換できるマルチモーダル大規模言語モデルです。特筆すべきは、Llama 4シリーズが初めて…

Apr 7, 2025

マイクロソフト、地質図の理解を支援するGeoMap-Benchを発表

地質科学分野において、地質図は地球の表面と地下構造を理解するための重要なツールです。しかし、これらの複雑な図表を解釈するには専門知識と豊富な経験が必要です。この分野の知能化レベルを高めるため、マイクロソフトアジア研究院は最近、地質図の理解におけるマルチモーダル大規模言語モデル（MLLM）の性能を評価するために設計された新しいベンチマークセット、GeoMap-Benchを発表しました。GeoMap-Benchの発表は、地質図解釈における人工知能の応用における重要な一歩を示しています。マイクロソフトの研究者と…

Mar 24, 2025

百度、文心4.5とX1大規模言語モデルを発表、価格の大幅な引き下げに注目が集まる

百度は最近、最新の文心大規模言語モデル4.5と文心大規模言語モデルX1を発表しました。ユーザーは文心一言の公式ウェブサイトで、これらの高度なモデルを無料で体験できます。文心4.5は百度初のネイティブマルチモーダル大規模言語モデルであり、マルチモーダル理解と論理推論に重点を置いています。その性能は、複数のベンチマークテストでGPT-4.5を上回り、API呼び出し価格はGPT-4.5のわずか1％です。この大幅な価格優位性は、多くの開発者や企業の注目を集めることは間違いありません。文心大規模言語モデル4.5は、マルチモーダル理解において著しい進歩を遂げ、…

Mar 16, 2025

170

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要