AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション

InternLM-XComposer2：マルチモーダル大規模モデルが創作の新しい時代を切り開く

站长之家

公開日AIニュース · 1 分で読めます · Jan 31, 2024

InternLM-XComposer2

InternLM-XComposer2は、テキストと画像を自由に組み合わせることで優れた性能を発揮する、高度なマルチモーダル大規模言語モデルです。

部分LoRA方式を採用することで、言語知識の完全性を維持し、高度なカスタマイズ創作を実現しています。

複数の実験において優れた成果を示しており、最先端のビジョン・ランゲージモデルの一つとして、幅広いタスクにおいて卓越した性能を提供します。

マルチモーダル AIニュースビジョン・言語モデル

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

国内初のマルチモーダルAIプログラマーが正式に職場へ　文心快码CodingインテリジェントエージェントZulu正式リリース

百度Create AI開発者会議が北京で開催されました。この注目を集めるテクノロジーイベントで、百度は文心快码3.5バージョンと、国内初のマルチモーダルAIプログラマーである文心快码Comate Zuluインテリジェントエージェントを正式にリリースし、AIプログラミングツールの新たな発展段階への到来を示しました。

Apr 27, 2025

芯驰、次世代4ナノメートルAIコックピットチップX10を発表、インテリジェント運転体験を向上

芯馳科技が、次世代の4ナノメートルAIコックピットチップX10を発表しました。このチップは、高度なAI機能と70億パラメーターのマルチモーダル大規模モデルを搭載し、インテリジェント運転体験を大幅に向上させます。よりスムーズで安全な運転を実現する革新的な技術が搭載されています。

Apr 27, 2025

Moonshot AIがKimi-Audioを発表：オープンソースの音声基礎モデルが新たな基準を確立

この度、Moonshot AIは、音声の理解、生成、インタラクション分野における技術の進歩を促進することを目的とした、全く新しいオープンソースの音声基礎モデルであるKimi-Audioを発表しました。この発表は、世界中のAIコミュニティから大きな注目を集め、マルチモーダルAI発展における重要なマイルストーンとみなされています。以下は、Kimi-Audioの主要な特徴、パフォーマンス、業界への影響に関する包括的なレポートです。画期的な特徴：万能な音声処理能力Kimi-Audio-7B-InstructはQwenに基づいています。

Apr 27, 2025

Meta、WebSSLモデルを発表：言語不要のビジョン学習における新たな探求

人工知能の分野において、Meta社は最近、WebSSLシリーズモデルを発表しました。このシリーズモデルは、パラメータ規模が3億から70億と異なり、純粋な画像データに基づいてトレーニングされ、言語なしの監督によるビジョン自己教師あり学習（SSL）の可能性を探求することを目的としています。この新たな研究は、将来のマルチモーダルタスクに新たな可能性をもたらし、ビジョン表現の学習方法の理解についても新たな視点を与えてくれます。これまで、OpenAIのCLIPモデルは、ビジュアル質問応答（VQA）や文書理解などのマルチモーダルタスクにおける優れた性能で知られていました。

Apr 25, 2025

ステップスターとゲンリキ・インテリジェンスが戦略的提携

ステップスターとゲンリキ・インテリジェンスは北京において戦略的提携契約を締結しました。両社はそれぞれの技術的優位性を活かし、マルチモーダル大規模言語モデル技術、インテリジェントターミナルエージェント、エンボディッドAIのシナリオにおいて緊密な協力を展開します。今回の提携の目標は「物理世界における推論の実現」であり、共同で「RoboAgent」と呼ばれるインテリジェントロボットを開発し、汎用人工知能（AGI）の現実世界への応用を推進することです。調印式には、ステップスターの創業者兼CEOである姜大昕博士とゲンリキ・インテリジェンスの共同創業者が出席しました。

Apr 24, 2025

昆侖万維がSkywork-R1V 2.0版をオープンソース化　視覚とテキストの推論能力が向上

4月24日、昆侖万維は、マルチモーダル推論モデルSkywork-R1V2.0（以下R1V2.0）の正式オープンソース化を発表しました。このアップグレード版は、視覚とテキストの推論能力の両方を大幅に向上させており、特に大学入試理系科目の難問の深層推論や一般的なタスクシナリオにおいて優れた性能を発揮します。現在、視覚とテキストの推論能力の両方を最もバランス良く備えたオープンソースのマルチモーダルモデルと言えるでしょう。

Apr 24, 2025

バイトダンス、超長ビデオ理解と編集の新潮流をリードするマルチモーダルモデル「Vidi」を発表

Apr 23, 2025

xAI、Grok Visionを発表 - 视觉と多言語インテリジェントインタラクションの新時代へ

xAIがGrok Visionを発表し、画像認識と多言語処理を融合した革新的なインタラクション体験を提供します。視覚情報と自然言語処理を組み合わせることで、より直感的で高度なユーザーエクスペリエンスを実現します。

Apr 23, 2025

研究：AIによるニュース入手が増加

現代のメディア環境において、人工知能（AI）はニュースの入手方法を密かに変えつつあります。従来、ニュースを読むことは一方通行の体験で、読者は情報を受け取るだけで議論に参加することはありませんでした。しかし、チャットボットの台頭により、ニュース消費は双方向的なインタラクションへと進化し、読者の役割は受動的な受信者から能動的な参加者へと変化しています。ますます多くの読者が、AIツールやチャットボットを利用してニュースを精査、要約、解釈し、時には伝統的なメディアを完全に迂回するようになっています。このような「対話型ニュース」は、読者が記事を閲覧する際に…

Apr 18, 2025

バイトダンス、UI-TARS-1.5を発表：オープンソースのマルチモーダルエージェントがGUI自動化の新たな潮流をリード

バイトダンスはHugging Faceプラットフォームで、強力なビジョン言語モデルに基づいて構築されたオープンソースのマルチモーダルエージェントであるUI-TARS-1.5を正式にリリースしました。この発表は、バイトダンスがAI自動化インタラクション分野における新たな大きなブレークスルーを達成したことを示しており、開発者とユーザーに効率的でインテリジェントなクロスプラットフォームGUI（グラフィカルユーザーインターフェース）自動化ソリューションを提供します。UI-TARS-1.5：マルチモーダルエージェントの革新的なベンチマークUI-TARS-1.5は、バイトダンスがUI-TARSシリーズに続く新しい...

Apr 18, 2025

180

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

InternLM-XComposer2：マルチモーダル大規模モデルが創作の新しい時代を切り開く

站长之家

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

国内初のマルチモーダルAIプログラマーが正式に職場へ 文心快码CodingインテリジェントエージェントZulu正式リリース

芯驰、次世代4ナノメートルAIコックピットチップX10を発表、インテリジェント運転体験を向上

Moonshot AIがKimi-Audioを発表：オープンソースの音声基礎モデルが新たな基準を確立

Meta、WebSSLモデルを発表：言語不要のビジョン学習における新たな探求

ステップスターとゲンリキ・インテリジェンスが戦略的提携

昆侖万維がSkywork-R1V 2.0版をオープンソース化 視覚とテキストの推論能力が向上

バイトダンス、超長ビデオ理解と編集の新潮流をリードするマルチモーダルモデル「Vidi」を発表

xAI、Grok Visionを発表 - 视觉と多言語インテリジェントインタラクションの新時代へ

研究：AIによるニュース入手が増加

バイトダンス、UI-TARS-1.5を発表：オープンソースのマルチモーダルエージェントがGUI自動化の新たな潮流をリード

国内初のマルチモーダルAIプログラマーが正式に職場へ　文心快码CodingインテリジェントエージェントZulu正式リリース

昆侖万維がSkywork-R1V 2.0版をオープンソース化　視覚とテキストの推論能力が向上