アリババ国際のオープンソースOvis2シリーズのマルチモーダル大規模言語モデルは6つのバージョンがあります

AIbase基地
この記事はAIbaseデイリーからのものです
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
MetaのAIチャットボットが未成年者と不適切な会話をした問題を受け、自傷行為や鬱など敏感な話題を制限する対策を実施中。....
マイクロソフトは新たなAI実験センター「Copilot Labs」を発表。最初のツール「Copilotオーディオエクスプレッション」では、テキストを自然な音声に変換可能。感情やスタイルを調整でき、英語に対応。....
9月1日、ステップスターリーは最も強力なオープンソースのエンド・トゥ・エンド音声大規模モデルであるStep-Audio 2 miniを正式に発表しました。このモデルは複数の国際ベンチマークデータセットでSOTA(State-of-the-Art)の成績を収め、音声理解、音声推論および生成を統一されたモデルで扱い、音声理解、音声認識、多言語翻訳、感情および副言語解析、音声対話などのタスクで優れた性能を示しています。また、音声ネイティブなTool Calling機能を初めてサポートし、ネットワーク検索などの操作を実現できます。Step
ファストフード業界におけるAI技術の適用に現実的な課題が浮上。タコベルは500店以上のドライブスルーでAI音声注文システムを導入したが、効果は期待外れ。顧客が18000杯の水を注文するなどシステムの限界が露呈し、AIと人間の業務分担について再考を迫られている。....
世界中の技術が急速に発展する今、中国の科学者たちは人工知能の力を借りて、月の科学的研究の新たな進展を推進しています。最近、2025年中国国際大データ産業博覧会において、中国科学院地球化学研究所は「月の科学マルチモーダル専門大規模モデル V2.0」を正式に発表しました。この先進的なモデルは「デジタル月球」クラウドプラットフォームに強力な「知性の脳」を提供し、月の地質学的研究の効率を大幅に向上させました。月の地質の進化の研究には通常、衝突クレーターや他の地質構造の分析が必要ですが、これらのクレーターの数や大きさ、
医療領域向け知識駆動型軌跡合成フレームワーク「MedResearcher-R1」が発表された。知識グラフ構築・軌跡生成・評価の3モジュールを統合し、医療AI推論を支援する。中核の知識グラフ構築モジュールはドメイン知識をQAペアに変換し、D3.js可視化機能を備える。....
8月31日、上海人工知能研究所(上海AI研究所)は、マルチモーダル大規模モデル「書生・万象InternVL3.5」のオープンソース版を発表しました。このモデルは、イノベーティブなカスケード型強化学習(Cascade RL)、動的ビジュアル解像度ルーティングおよび脱結合デプロイアーキテクチャによって、推論能力、デプロイ効率、汎用性が全面的に向上しています。InternVL3.5は、1Bから241Bまでの全サイズパラメータのバージョンをオープンソース化し、オープンソースモデルの性能基準を刷新し、さまざまなタスクで先駆的な水準に達しています。
テンセントARCチームは、大規模言語モデル(LLM)を用いて長編ナレーション音声を生成する「AudioStory」を発表。短音声生成技術の課題を克服し、時間的一貫性と推論能力を備えた音声生成を実現。動画ナレーションや長編合成など多様なタスクに対応可能。....
最近、メイドゥーは最新のオープンソースの大規模言語モデルLongCat(ロングキャット)を正式に発表しました。このモデルは人工知能技術の発展と応用を促進することを目的としています。このモデルのリリースは、メイドゥーがAI分野での新たな重要な進展を示すだけでなく、開発者や研究者にとって強力なツールを提供するものです。LongCatのコアバージョンであるLongCat-Flashには560億のパラメータがあり、そのコア的な利点は革新的なミックス・オブ・エキスパート(MoE)アーキテクチャです。このアーキテクチャは動的な計算メカニズムにより、文脈の要件に基づいて適切な処理を行います。