AIニュース

AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

最新事例

AIマネタイズ事例の共有

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

最新チュートリアル

最新のAIチュートリアルを無料で共有

AIプロダクトランキング

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

人気のある国ランキング

アメリカ合衆国

米国のユーザーに最も人気のあるAIウェブサイト

中国

中国のユーザーに最も人気のあるAIウェブサイト

インド

インドのユーザーに最も人気のあるAIウェブサイト

ブラジル

ブラジルのユーザーに最も人気のあるAIウェブサイト

人気のあるカテゴリランキング

画像生成

AI画像生成ウェブサイトの総訪問数ランキング

パーソナルアシスタント

AIパーソナルアシスタントウェブサイトの総訪問数ランキング

キャラクター生成

AIキャラクター生成ウェブサイトの総訪問数ランキング

ビデオ生成

AIビデオ生成ウェブサイトの総訪問数ランキング

人気のあるオープンソースデータランキング

AIプロジェクトランキング

GitHubの人気のあるAIプロジェクトを総スター数でランキング

AIプロジェクト成長ランキング

GitHubの人気のあるAIプロジェクトを成長率でランキング

AI開発者ランキング

GitHubの人気のあるAI開発者ランキング

AI組織ランキング

GitHubの人気のあるAI組織ランキング

人気のあるオープンソースカテゴリ

Deepseek

GitHubの人気のあるDeepseekオープンソースプロジェクト

TTS

GitHubの人気のあるTTSオープンソースプロジェクト

LLM

GitHubの人気のあるLLMオープンソースプロジェクト

ChatGPT

GitHubの人気のあるChatGPTオープンソースプロジェクト

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション MCP

LLaVA-NeXT

多様な画像、動画、3Dデータを処理する大規模マルチモーダルモデルです。

一般製品画像マルチモーダル画像認識

ウェブサイトを開く

LLaVA-NeXTは大規模マルチモーダルモデルであり、統一されたインターリーブデータフォーマットを通じて、多画像、動画、3D、単一画像データの処理を行います。異なるビジュアルデータモダリティにおける協調学習能力を実証しています。多画像ベンチマークテストにおいて最先端の結果を達成しており、様々なシナリオにおいて適切なデータの組み合わせにより、既存の単一タスクのパフォーマンス向上または維持を実現しています。

LLaVA-NeXT

ウェブサイトを開く

LLaVA-NeXT 最新のトラフィック状況

月間総訪問数

57909

直帰率

53.87%

平均ページ/訪問

1.4

平均訪問時間

00:00:25

LLaVA-NeXT 訪問数の傾向

LLaVA-NeXT 訪問地理的分布

LLaVA-NeXT トラフィックソース

LLaVA-NeXT 代替品

LLaVA-NeXT — 多様な画像、動画、3Dデータを処理する大規模マルチモーダルモデルです。

•マルチモーダル•画像認識

Valley — テキスト、画像、動画データを処理するマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

Valley-Eagle-7B — テキスト、画像、ビデオデータを処理するマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル

Llama-3.2-11B-Vision — 画像とテキストの処理に対応した、マルチモーダル大規模言語モデルです。

•マルチモーダル•画像処理

VideoLLaMA3 — VideoLLaMA3は、画像と動画の理解に特化した最先端のマルチモーダル基盤モデルです。

•マルチモーダル•動画理解

LLaVA-Mini — LLaVA-Miniは、画像と動画を効率的に理解できる大規模マルチモーダルモデルです。

•「画像理解、動画処理、マルチモーダルモデル、高効率計算、低遅延」

OpenCompass マルチモーダルリーダーボード — リアルタイム更新されるマルチモーダルモデルのパフォーマンスランキング

•マルチモーダル•性能評価

ピクセル認識型Stable Diffusion — ピクセル認識型安定拡散：高解像度化とパーソナライズされたスタイル変換によるリアルな画像処理

•画像処理•超解像度

EMOVA

EMOVA — 感情豊かなマルチモーダル言語モデル

•マルチモーダル•音声認識

R1-Omni — R1-Omniは、強化学習を組み合わせた全モーダル感情認識モデルであり、マルチモーダル感情認識の解釈性の向上に焦点を当てています。

プログラミング

•マルチモーダル•感情認識

MA-LMM — 長期動画理解のための巨大規模マルチモーダルモデル

•動画理解•マルチモーダル

Yi-VL-34B — 高度なオープンソースのマルチモーダルモデル

•マルチモーダル•人工知能

llava-llama-3-8b-v1_1 — XTunerで最適化されたLLaVAモデル。画像とテキストの処理能力を兼ね備えています。

プログラミング

•人工知能•マルチモーダル学習

Spirit LM — テキストと音声統合のマルチモーダル言語モデル

•マルチモーダル•言語モデル

UniVG — 統一多モーダル動画生成システム

•動画生成•多モーダル

InternVL3 — InternVL3オープンソース：テキスト、画像、ビデオ処理に対応する7種類のサイズ、マルチモーダル機能は工業用画像分析まで拡張

•マルチモーダル•画像処理

Apollo-LMMs — 大規模マルチモーダルモデルにおける動画理解の探求

•動画理解•マルチモーダルモデル

Step-R1-V-Mini — 画像とテキストの入力をサポートし、テキストを出力する、新しいマルチモーダル推論モデルです。高精度な画像認識と複雑な推論能力を備えています。

•マルチモーダル推論、画像認識、場所判定、レシピ生成、物体数計算

MiniCPM-V 2.6 — 高性能多モーダル言語モデル。画像と動画の理解に最適です。

•多モーダル•画像理解

Qwen2.5-Omni — Qwen2.5-Omniは、アリババクラウドの通義千問チームが開発したエンドツーエンドのマルチモーダルモデルであり、テキスト、音声、画像、ビデオ入力をサポートしています。

中国セレクション

•人工知能、マルチモーダル、自然言語処理、音声合成、画像認識

SmolVLM-256M-Instruct — SmolVLM-256Mは、世界最小級のマルチモーダルモデルであり、画像とテキストの入力を効率的に処理してテキスト出力を生成します。

•マルチモーダル•画像処理

Mini-Gemini — 画像理解と生成の両方を備えたマルチモーダルAIモデル

•AIモデル•画像処理

Valley 2.0 — テキスト、画像、動画データを処理する能力を向上させた、マルチモーダル大規模言語モデルです。

•マルチモーダル•大規模言語モデル

ComfyUI-CogVideoXWrapper — 画像から動画への変換を実現する動画処理ツールです。

•動画処理•画像から動画

Any GPT — マルチモーダル大規模言語モデル

•マルチモーダル•チャットボット

Grok-1.5 Vision プレビュー — デジタルと物理世界を繋ぐ、初のマルチモーダルモデル

•マルチモーダル•画像理解

Pixtral-12B-2409

Pixtral-12B-2409 — 120億パラメーターのマルチモーダルモデル。ビジョンエンコーダーを組み合わせることで、画像とテキストの処理を行います。

•マルチモーダル•画像処理

pixtral-12b-240910 — 画像とテキストの理解をサポートする、マルチモーダル大規模言語モデルです。

•マルチモーダル•画像処理

Llama3-s v0.2 — 音声理解能力を向上させた最新のマルチモーダルチェックポイントです。

プログラミング

•音声認識•自然言語処理

InternVL2_5-2B-MPO

InternVL2_5-2B-MPO — 高度先進なマルチモーダル大規模言語モデル

•マルチモーダル•大規模言語モデル