マルチモーダル大規模言語モデルによる統合検出セグメンテーションモジュール、切り抜きがより簡単に

站长之家

公開日AIニュース · 1 分で読めます · Jan 4, 2024

多モーダル大規模モデル

シンガポール国立大学NExT++研究所と清華大学劉知遠チームが共同開発した多モーダル大規模モデルは、検出・セグメンテーションモジュールを統合することで、切り抜き作業をより簡単に行えるようにしました。

自然言語でニーズを記述するだけで、モデルは探し求める対象物を迅速に特定し、テキストによる説明を提供します。

このモデルは複数のタスクデータセットにおいて優れた実験結果を示し、指し示すセグメンテーションとRECタスクにおいて高い能力を有しています。

さらに、このモデルはembeddingに基づいた位置モデリング方式を採用しており、より優れた位置モデリング能力を備えています。

トレーニングプロセスの最適化により、アノテーションデータが不足しているセグメンテーションタスクにおいても良好な結果を得ることが可能です。

マルチモーダル大規模言語モデル検出セグメンテーションモジュール切り抜き

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

ステップスターとゲンリキ・インテリジェンスが戦略的提携

ステップスターとゲンリキ・インテリジェンスは北京において戦略的提携契約を締結しました。両社はそれぞれの技術的優位性を活かし、マルチモーダル大規模言語モデル技術、インテリジェントターミナルエージェント、エンボディッドAIのシナリオにおいて緊密な協力を展開します。今回の提携の目標は「物理世界における推論の実現」であり、共同で「RoboAgent」と呼ばれるインテリジェントロボットを開発し、汎用人工知能（AGI）の現実世界への応用を推進することです。調印式には、ステップスターの創業者兼CEOである姜大昕博士とゲンリキ・インテリジェンスの共同創業者が出席しました。

Apr 24, 2025

上海人工知能研究所、アップグレード版マルチモーダル大規模言語モデル「書生・万象 3.0」を発表

Apr 17, 2025

国家スパコンプラットフォーム、次世代マルチモーダル大規模言語モデルを発表 AI知能体の発展を促進

Apr 16, 2025

上海AI研究所がInternVL3シリーズマルチモーダル大規模言語モデルをオープンソース化

OpenGVLabは、InternVL3シリーズモデルのオープンソースリリースを発表しました。これは、マルチモーダル大規模言語モデル（MLLM）分野における新たなマイルストーンとなります。InternVL3シリーズは、1Bから78Bまでの7つのサイズからなるモデル群で、テキスト、画像、ビデオなどの様々な情報を同時に処理でき、優れた総合性能を示しています。

Apr 14, 2025

250

商湯科技、新たなマルチモーダル大規模言語モデルを発表未来のインタラクション時代に向けた布石

4月10日に行われた商湯テクノロジー交流会において、商湯科技は最新のマルチモーダル融合大規模言語モデル「商湯日日新SenseNova V6」と「商湯大装置SenseCore2.0」システムを発表しました。この新型大規模言語モデルは、テキスト、画像、ビデオなど様々な情報形式を統合し、より自然で豊かなインタラクション体験を提供することを目指しています。今回発表されたSenseNova V6シリーズには4つのバージョンが含まれており、中でもSenseNova V6Proが注目を集めています。

Apr 10, 2025

Meta、Llama 4大言語モデルを発表：混合専門家アーキテクチャがAIの新時代をリード

Meta社は、最新のオープンソース人工知能モデルLlama 4を発表し、人工知能分野における新たな大きな進歩を示しました。Llama 4はScoutとMaverickの2つのバージョンがあり、AIモデルの機能とパフォーマンスを向上させることを目指しています。Metaによると、Llama 4はテキスト、画像、ビデオ、オーディオなど、複数のデータタイプを処理し、これらの形式間で自由に変換できるマルチモーダル大規模言語モデルです。特筆すべきは、Llama 4シリーズが初めて…

Apr 7, 2025

マイクロソフト、地質図の理解を支援するGeoMap-Benchを発表

地質科学分野において、地質図は地球の表面と地下構造を理解するための重要なツールです。しかし、これらの複雑な図表を解釈するには専門知識と豊富な経験が必要です。この分野の知能化レベルを高めるため、マイクロソフトアジア研究院は最近、地質図の理解におけるマルチモーダル大規模言語モデル（MLLM）の性能を評価するために設計された新しいベンチマークセット、GeoMap-Benchを発表しました。GeoMap-Benchの発表は、地質図解釈における人工知能の応用における重要な一歩を示しています。マイクロソフトの研究者と…

Mar 24, 2025

百度、文心4.5とX1大規模言語モデルを発表、価格の大幅な引き下げに注目が集まる

百度は最近、最新の文心大規模言語モデル4.5と文心大規模言語モデルX1を発表しました。ユーザーは文心一言の公式ウェブサイトで、これらの高度なモデルを無料で体験できます。文心4.5は百度初のネイティブマルチモーダル大規模言語モデルであり、マルチモーダル理解と論理推論に重点を置いています。その性能は、複数のベンチマークテストでGPT-4.5を上回り、API呼び出し価格はGPT-4.5のわずか1％です。この大幅な価格優位性は、多くの開発者や企業の注目を集めることは間違いありません。文心大規模言語モデル4.5は、マルチモーダル理解において著しい進歩を遂げ、…

Mar 16, 2025

170

アリババ国際のオープンソースOvis2シリーズのマルチモーダル大規模言語モデルは6つのバージョンがあります

Ovis2はアリババ国際チームが提案したOvisシリーズモデルの最新バージョンです。前の1.6バージョンと比べて、Ovis2はデータ構築とトレーニング手法において顕著な改善がなされています。小規模モデルの能力密度を強化しただけでなく、指示微調整と好み学習を通じて思考チェーン（CoT）推論能力を大幅に向上させました。さらに、Ovis2は動画および複数の画像処理能力を導入し、多言語能力と複雑なシーンでのOCR能力を強化し、モデルの実用性を大幅に向上させました。

Feb 21, 2025

2.2k

美图影像研究院と北京交通大学が共同で自然画像の切り抜きに関する新技術を開発、AAAI 2025 に採択

先日、美图影像研究院（MT Lab）と北京交通大学は、MEMatte（Memory Efficient Matting）と呼ばれる超高解像度切り抜き技術を共同で開発し、人工知能分野のトップ会議であるAAAI2025に採択されました。MEMatte技術の最大の特徴は、メモリ効率の良い自然画像切り抜きフレームワークであり、モデルの計算コストを効果的に削減できる点です。この革新により、商用GPUやエッジデバイスなど、メモリに制限のある環境でも、高解像度の自然画像の切り抜きが可能になります。

Jan 23, 2025

1.7k

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要