AIニュース

AIニュース

世界のAIイノベーションの瞬間をお見逃しなく

AIデイリー

毎日の3分AI業界トレンド

AIタイムライン

AI業界のマイルストーン

Alハードウェアです

すべてのAIハードウェアをリストアップします。

AIマネタイズガイド

最新事例

AIマネタイズ事例の共有

画像コレクション

AI画像生成マネタイズ事例

ビデオコレクション

AIビデオ生成マネタイズ事例

オーディオコレクション

AIオーディオ生成マネタイズ事例

コンテンツコレクション

AIコンテンツ作成マネタイズ事例

AIチュートリアル

最新チュートリアル

最新のAIチュートリアルを無料で共有

AIプロダクトランキング

AIプロダクトランキング

AIウェブサイトの総訪問数ランキングを表示

AIトラフィック成長ランキング

トラフィックによる最も急速に成長しているAIウェブサイトを追跡

AIトラフィック減少ランキング

トラフィックが大幅に減少しているAIウェブサイトに焦点を当てる

AI週間ランキング

AIウェブサイトの週間訪問数ランキングを表示

人気のある国ランキング

アメリカ合衆国

米国のユーザーに最も人気のあるAIウェブサイト

中国

中国のユーザーに最も人気のあるAIウェブサイト

インド

インドのユーザーに最も人気のあるAIウェブサイト

ブラジル

ブラジルのユーザーに最も人気のあるAIウェブサイト

人気のあるカテゴリランキング

画像生成

AI画像生成ウェブサイトの総訪問数ランキング

パーソナルアシスタント

AIパーソナルアシスタントウェブサイトの総訪問数ランキング

キャラクター生成

AIキャラクター生成ウェブサイトの総訪問数ランキング

ビデオ生成

AIビデオ生成ウェブサイトの総訪問数ランキング

人気のあるオープンソースデータランキング

AIプロジェクトランキング

GitHubの人気のあるAIプロジェクトを総スター数でランキング

AIプロジェクト成長ランキング

GitHubの人気のあるAIプロジェクトを成長率でランキング

AI開発者ランキング

GitHubの人気のあるAI開発者ランキング

AI組織ランキング

GitHubの人気のあるAI組織ランキング

人気のあるオープンソースカテゴリ

Deepseek

GitHubの人気のあるDeepseekオープンソースプロジェクト

TTS

GitHubの人気のあるTTSオープンソースプロジェクト

LLM

GitHubの人気のあるLLMオープンソースプロジェクト

ChatGPT

GitHubの人気のあるChatGPTオープンソースプロジェクト

AIオープンソースプロジェクトライブラリ

概要

GitHubの人気のあるAIオープンソースプロジェクトの概要

プロダクトライブラリツールナビゲーション MCP

jina-clip-v2

テキストと画像の検索に使用される、多言語対応のマルチモーダル埋め込みモデルです。

一般製品生産性マルチモーダル多言語

ウェブサイトを開く

jina-clip-v2は、Jina AIによって開発された多言語対応のマルチモーダル埋め込みモデルです。89言語の画像検索に対応し、512x512ピクセルの解像度の画像を処理できます。ストレージと処理のニーズに合わせて、64次元から1024次元までの様々な出力次元を提供します。このモデルは、強力なテキストエンコーダーであるJina-XLM-RoBERTaと、ビジョンエンコーダーであるEVA02-L14を組み合わせ、共同トレーニングによって画像とテキストの整合性の取れた表現を作成しています。jina-clip-v2は、マルチモーダル検索と情報検索において、より正確で使いやすい機能を提供し、特に言語の壁を取り払い、クロスモーダルな理解と検索において優れた性能を発揮します。

jina-clip-v2

ウェブサイトを開く

jina-clip-v2 最新のトラフィック状況

月間総訪問数

25296546

直帰率

43.31%

平均ページ/訪問

5.8

平均訪問時間

00:04:45

jina-clip-v2 訪問数の傾向

jina-clip-v2 訪問地理的分布

jina-clip-v2 トラフィックソース

jina-clip-v2 代替品

jina-clip-v2 — テキストと画像の検索に使用される、多言語対応のマルチモーダル埋め込みモデルです。

•マルチモーダル•多言語

Phi-4-multimodal-instruct — Phi-4-multimodal-instructは、Microsoftが開発した軽量のマルチモーダル基礎モデルで、テキスト、画像、音声入力をサポートします。

•マルチモーダル•音声認識

CLaMP 3 — CLaMP 3は、クロスモーダルかつクロスリンガルの音楽情報検索のための統合フレームワークです。

•音楽情報検索•マルチモーダル

InternVL2_5-4B — 視覚と言語理解を融合したマルチモーダル大規模言語モデル。

•マルチモーダル•大規模言語モデル

InternVL2_5-8B — 画像とテキストの相互理解をサポートする、マルチモーダル大規模言語モデルです。

•マルチモーダル•大規模言語モデル

GLM-4シリーズ — オープンソースの多言語・マルチモーダル対話モデル

プログラミング

•多言語•マルチモーダル

MNN-LLM Android App — 軽量級のマルチモーダル言語モデル対応Androidアプリ。

•ディープラーニング•人工知能

聴脳 AI — スマート会議アシスタント。会議内容のリアルタイム文字起こしと言葉要約を実現します。

中国セレクション

•会議アシスタント•音声文字起こし

Liquid — 視覚理解と生成を統合したマルチモーダル生成モデルです。

•マルチモーダル•生成モデル

InternVL3 — InternVL3オープンソース：テキスト、画像、ビデオ処理に対応する7種類のサイズ、マルチモーダル機能は工業用画像分析まで拡張

•マルチモーダル•画像処理

Kimi-VL — マルチモーダル推論機能を備えた、効率的なオープンソースの専門家混合型ビジョン言語モデルです。

中国セレクション

•マルチモーダル•推論

Versatile-OCR-Program — 機械学習向けに最適化されたマルチモーダルOCRパイプラインです。

•OCR•機械学習

DreamActor-M1 — DiTベースのヒューマンイメージアニメーションフレームワークであり、精細な制御と長期的な一貫性を実現します。

•ヒューマンアニメーション•ビデオ生成

Mistral Small 3.1 — テキストとビジョンタスク処理能力を強化したオープンソースモデル。

•マルチモーダル•テキスト処理

MistralOCR.net — Mistral OCR は、PDF や画像からテキスト、画像、表、数式を非常に高い精度で抽出できる強力なドキュメント理解 OCR 製品です。

•文書処理•OCR

Gemini Robotics — Gemini 2.0ベースのロボットモデル。AIを物理世界にもたらし、視覚、言語、動作能力を備えています。

国際セレクション

•人工知能•ロボット

Embra.ai — Embraは、ワークフローを簡素化し、営業と製品開発の効率を向上させることを目的としたAIオペレーティングシステムです。

•会議記録•タスク管理

R1-Omni — R1-Omniは、強化学習を組み合わせた全モーダル感情認識モデルであり、マルチモーダル感情認識の解釈性の向上に焦点を当てています。

プログラミング

•マルチモーダル•感情認識

OpenAI Agents SDK — OpenAI Agents SDKは、自律型エージェントを構築するための開発キットであり、複数エージェントワークフローのオーケストレーションを簡素化します。

国際セレクション

•人工知能•エージェント

SmolVLM2 — SmolVLM2は、動画コンテンツの分析と生成に特化した軽量言語モデルです。

•動画分析•テキスト生成

Gemini Embedding テキスト埋め込みモデル — Gemini Embeddingは、Gemini APIを通じて強力な言語理解能力を提供する、高度なテキスト埋め込みモデルです。

プログラミング

•テキスト埋め込み•自然言語処理

Inception Labs — Inception Labsは、次世代の拡散型大規模言語モデルを発表し、極めて高速で効率的で高品質な言語生成能力を提供します。

国際セレクション

•人工知能•言語モデル

Hugo Translator — LLMベースの記事翻訳ツール。多言語Markdownファイルを自動翻訳して作成します。

•LLM•翻訳

Aya Vision 32B — Aya Vision 32Bは、OCR、画像記述、視覚推論など、多様な用途に適した多言語対応のビジュアル言語モデルです。

•多言語•ビジュアル言語

Aya Vision 8B — 8億パラメーターの多言語視覚言語モデルで、OCR、画像キャプション、視覚推論などの機能をサポートしています。

•多言語•視覚言語モデル

Aya Vision — Aya Visionは、Cohereが提供する多言語・多モーダルなビジュアルモデルであり、多言語環境における視覚とテキストの理解能力の向上を目指しています。

国際セレクション

•多言語•多モーダル

EgoLife — EgoLifeは、長期的なコンテキスト理解研究を推進することを目的とした、長期、マルチモーダル、多角的な日常生活AIアシスタントプロジェクトです。

•マルチモーダル•多角的

UniTok — UniTokは、視覚生成と理解のための統一的な視覚トークナイザーです。

•人工知能•視覚生成

Llasa — Llamaフレームワークに基づくTTS基礎モデルで、16万時間のトークン化された音声データに対応しています。

•音声合成•人工知能

LLaDA — LLaDAは大規模言語拡散モデルであり、強力な言語生成能力を備えており、LLaMA3 8Bと同等の性能を有します。

•言語生成•多言語