DeepSeekは来週、マルチモーダル大規模モデルV4を発表する予定です。このモデルは画像、動画、テキストの生成をサポートしています。このモデルはすべての中国製算力と互換性があり、中国製半導体チップとの適合性を最適化することを目的としています。このモデルは国内半導体需要の促進と、AI推論および中国製チップの統合を加速する可能性があります。
深度求索は来週、画像・動画・テキスト生成をネイティブサポートするマルチモーダル大規模モデル「DeepSeek V4」をリリース。国内の低コストオープンソースモデル需要に対応し、AI発展を推進。技術概要も同時公開、詳細版は約1ヶ月後予定。....
Googleが新画像生成モデル「Nano Banana2」を発表。Gemini3.1Flash Imageアーキテクチャを基に、理解力と応答速度を大幅向上。中国語文字化けや意味混乱、画質ノイズなどの課題を改善し、明確な中国語テキスト生成を実現。....
GoogleはGeminiアプリに新画像生成モデル「Nano Banana2」を導入。Pro級の画質とFlash級の応答速度を両立し、高品質で高速なAI画像生成を提供。アプリ内「画像生成」機能から直接利用可能。....
テキストや画像を映画級の動画に変換する強力なAI動画生成モデルです。
NanoMaker AIにはNano Banana Proが含まれており、単一のサブスクリプションで画像、ビデオ、音楽などのトップクラスのAIモデルを利用できます。
無料のオンラインAI画像エディターで、オープンソースのSOTAモデルに基づいており、登録不要で機能が豊富です。
HeyVid AIは統合型のAIビデオおよび画像生成ツールで、無料で18種以上のトップモデルを利用できます。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$2
$20
$4
$16
dx8152
文心画像融合Loraモデルは、画像融合と編集に特化したAIモデルで、製品の透視角度を補正し、光線効果を調整し、製品を自然に背景環境に溶け込ませ、高品質の画像合成効果を実現できます。
LiquidAI
LFM2-VL-3BはLiquid AIが開発したマルチモーダル視覚言語モデルで、LFM2バックボーンアーキテクチャに基づいて構築されており、強力な視覚理解と推論能力を備えており、特に細粒度な感知タスクで優れた性能を発揮します。このモデルは、テキストと画像の入力を効率的に処理することができ、最大512×512解像度の原生画像処理をサポートしています。
deepseek-ai
DeepSeek-OCRはDeepSeek AIが開発した高度な光学文字認識モデルで、視覚テキスト圧縮の限界を探求し、画像からテキスト内容を効率的に抽出および変換できます。
lichorosario
これはQwen-Imageモデルをベースに訓練されたLoRA(Low-Rank Adaptation)モデルで、テキストから画像への生成タスクに特化しています。このプロジェクトはAI Toolkitを使用して訓練され、テキスト記述を高品質な画像に変換でき、様々な画像生成ツールでの使用をサポートしています。
Zlikwid
これはQwen/Qwen-Image-Edit-2509基礎モデルに基づいて訓練されたLoRA画像生成モデルで、画像から画像への変換タスクに特化しており、OstrisによるAIツールキットを使用して訓練されています。
expert78
kontext-dusk-3-loraは、FLUX.1-Kontext-devベースモデルを基にトレーニングされたLoRA画像生成モデルで、黄昏のブルー調のスタイルの画像を生成するために特別に設計されています。このモデルは特定のトリガーワードで起動し、主流のAI画像生成ツールを複数サポートしています。
zambawi
joywan - loraは、OstrisによるAIツールキットを基にトレーニングされたLoRAモデルで、テキストから動画および画像生成タスクに特化しており、基礎モデルのWan - AI/Wan2.1 - T2V - 14B - Diffusersと併用する必要があります。
mrgant
lans_v1 - loraは、Qwen/Qwen-Imageモデルをベースに、OstrisによるAIツールキットを使用して訓練されたテキストから画像への変換モデルです。LoRA技術を用いて最適化されており、良好な画像生成能力を備えています。
spamnco
これはWan2.1-T2V-14Bモデルをベースに訓練されたLoRAアダプターで、テキストからビデオへの変換タスクに特化しており、画像生成に強化機能を提供します。このモデルはAI Toolkitを使用して訓練され、画像生成をアクティブにするには特定のトリガーワード「diddly」が必要です。
BarleyFarmer
pejawan22-loraはAI技術を基に訓練されたLoRAモデルで、特定の画像生成に特化しており、複数のAIツールと統合して使用できます。トリガーワード「peja」を使って画像を生成します。
natalie_wan_2.2-loraは、OstrisによるAIツールキットを基にトレーニングされたLoRAモデルで、テキストからビデオへの変換タスクに特化しており、画像生成の品質と効果を効果的に向上させることができます。
MartinSSSTSGH
これはOstrisによるAIツールキットを基にトレーニングされたLoRAモデルで、テキストから動画への画像生成タスクに特化しており、トリガーワード「Lilly」を使用して特定のスタイルの画像コンテンツを生成します。
Mark111111111
これはOstrisによるAIツールキットを基にトレーニングされたLoRAモデルで、テキストからビデオへの変換に特化しており、画像生成に新しい体験をもたらします。このモデルは基礎モデルWan2.2-T2V-A14Bと一緒に使用する必要があります。
Ashmotv
animat3d_style_wan-loraは、OstrisによるAIツールキットを基にトレーニングされたLoRAモデルで、テキストからビデオへの生成に特化しており、画像生成に独特な3Dアニメーションスタイルの効果をもたらします。このモデルはWan2.2 - T2V - A14Bベースモデルを基に微調整されており、複数の主流のAIプラットフォームで使用できます。
Isshywondertwin
Alexis_Noir_Wan2.2-loraは、OstrisによるAI Toolkitを使用して訓練されたLoRAモデルで、画像から動画への変換タスクに特化しています。このモデルはWan2.2-I2V-A14Bベースモデルに基づいており、高解像度画像の生成をサポートしています。
cyburn
qwen_edit_photo_restore_v1-loraは、Qwen-Image-EditモデルをベースにトレーニングされたLoRAアダプターで、画像編集と修復タスクに特化しています。このモデルはOstrisによるAI Toolkitを使用してトレーニングされ、複数の主流AIプラットフォームをサポートし、高品質な画像処理能力を提供します。
andrewwe
my_qwennud-loraはQwen-Image-Edit-2509をベースに特定のツールを使用して訓練されたLoRAモデルで、画像生成と編集タスクに特化しており、OstrisのAI Toolkitによって訓練され、複数の主流のAIツールと連携できます。
bigdoinks420518
これはOstrisによるAIツールキットを使用してトレーニングされたLoRAモデルで、Wan - AI/Wan2.1 - T2V - 14B - Diffusersベースモデルに基づいており、主にテキストからビデオ生成に使用され、画像生成分野で独自の応用価値があります。
EightiesPower
bl00dsqibWan22-loraは、OstrisのAIツールキットを使用してトレーニングされたLoRAモデルで、画像から動画への処理タスクに特化しており、画像および動画処理分野に新しい解決策を提供します。
deadpoolx22
これはAI技術に基づくテキストから動画へのLoRAモデルで、アリタキャラクターに特化して最適化訓練されており、画像生成などのシーンに使用でき、関連分野のアプリケーションに便利をもたらします。
mcp-hfspaceは、Hugging Face Spacesに接続するMCPサーバーで、画像生成、音声処理、ビジュアルモデルなど、さまざまなAI機能をサポートし、Claude Desktopとの統合を簡素化します。
DiffuGenは高度なローカル画像生成ツールで、MCPプロトコルを統合し、複数のAIモデル(FluxやStable Diffusionシリーズを含む)をサポートし、開発環境で直接高品質な画像を生成できます。柔軟な設定オプション、複数GPUのサポートを提供し、MCPプロトコルを通じて複数のIDEと統合でき、同時に外部呼び出し用のOpenAPIインターフェースも提供します。
Google Geminiの画像生成モデルに基づくMCPサーバーです。AIエージェントがテキストプロンプトを使用して画像を生成、編集、説明することを可能にし、複数のモデルと設定オプションをサポートしています。
AIビデオ生成MCPサーバーは、テキストと画像入力をサポートして動画ビデオを生成し、様々なパラメーター制御とモデル選択を提供します。
バナナ画像MCPは、MCPプロトコルに基づくAI画像生成サーバーで、ClaudeなどのアシスタントがGoogle Geminiモデルを使用して高品質の画像を生成できるようにします。4K解像度とスマートなモデル選択をサポートしています。
Jina AI MCPサーバーは、意味検索、画像検索、クロスモーダル検索機能を提供するモデルコンテキストプロトコルサーバーで、Jina AIのニューラル検索機能とシームレスに統合できます。
DiffuGenは高度なローカル画像生成ツールで、MCPプロトコルを統合し、複数のAIモデルをサポートし、開発環境内でシームレスに高品質な画像を生成できます。
Replicate APIに接続するFastMCPサーバーの実装で、標準化されたインターフェースを通じて複数のAIモデルにアクセスできます。現在は画像生成機能をサポートしており、開発の初期段階にあります。
MCP OpenVisionは、OpenRouterのビジュアルモデルに基づく画像分析サーバーで、AIアシスタントに画像分析能力を提供します。
Google GeminiとVertex AIに基づくAIビジョン分析MCPサーバーです。画像とビデオのマルチモーダル分析をサポートし、オブジェクト検出、画像比較などの機能を提供し、複数のMCPクライアントに統合できます。
OpenCV MCP ServerはPythonベースのコンピュータビジョンサービスで、Model Context Protocol (MCP) を通じてOpenCVの画像およびビデオ処理機能を提供します。AIアシスタントや言語モデルに、基本的な画像処理から高度な物体検出までの一連のコンピュータビジョンツールを提供し、画像処理、エッジ検出、顔認識、ビデオ分析、リアルタイム物体追跡などの機能を含みます。
OpenSCADに基づくMCPサーバーで、AIを通じて多視点画像を生成し、パラメトリック3Dモデルに再構成し、リモートCUDAアクセラレーション処理をサポートしています。
MCP Flux Studioは、強力なモデルコンテキストプロトコルサーバーです。Fluxの高度な画像生成機能をAIプログラミングアシスタントに統合し、CursorとWindsurf IDEをサポートします。
Replicate Flux MCPは、Model Context Protocol(MCP)をベースにした高度なサーバーで、Replicate APIを通じてFlux SchnellとRecraft V3 SVGモデルを利用し、AIアシスタントに高品質の画像とベクターグラフィックの生成能力を提供します。
Image Gen MCP Serverは、Model Context Protocol(MCP)標準プロトコルを通じて、さまざまなLLMチャットボットにクロスプラットフォーム、多モデルの画像生成機能を提供する汎用AI画像生成サービスです。OpenAIとGoogleの複数の画像モデルをサポートし、テキスト対話からビジュアルコンテンツへのシームレスな変換を実現します。
ムーンドリームMCPサーバーは、ムーンドリームビジュアルモデルに基づく画像分析サービスで、画像説明生成、物体検出、ビジュアル質問応答機能を提供し、ClaudeやClineなどのAIアシスタントに簡単に統合できます。
Outsource MCPは、複数のAIモデルプロバイダーをサポートする統一インターフェースサービスです。MCPプロトコルを通じて、AIアプリケーションが異なるベンダーのテキストおよび画像生成機能を簡単に呼び出せるようにします。
Gemini MCPサーバーはClaudeデスクトップアプリ用に設計されたミドルウェアで、Google Gemini AIモデルを通じて画像生成機能を実現します。このプロジェクトは簡単なインストール設定ウィザードを提供し、Dockerコンテナ化デプロイをサポートし、ユーザーが生成パラメータをカスタマイズできるようにします。
MCP Server Notifierは、モデルコンテキストプロトコル(MCP)と統合された軽量な通知サービスで、AIエージェントがタスクを完了したときにWebhook通知を送信します。多くのWebhookプロバイダー(Discord、Slack、Teamsなど)をサポートし、画像サポート、多プロジェクト管理、カスタムメッセージなどの機能を提供し、AIツール(Cursorなど)と簡単に統合できます。
MCPプロトコルに基づくPixabay APIサービスで、AIモデルに画像と動画の検索機能を提供します。