可灵AIはO1動画大モデルを全面公開し、統一マルチモーダルアーキテクチャを採用。テキストや画像など多様な入力から一言で動画を生成可能に。....
vLLM-Omniは、テキスト、画像、音声、ビデオの統一生成を実現する初の「全モーダル」推論フレームワークです。解結合パイプラインアーキテクチャを採用し、GitHubからpipで利用可能です。....
可灵AIはO1ビデオ大モデルを全面公開。多モーダル視覚言語統合アーキテクチャを採用し、テキスト・画像・動画の融合入力に対応。思考連鎖推論を導入し、一括で文/図からの動画生成、編集、延長が可能。....
腾讯が混元3D創作エンジン国際版を発表。海外ユーザーはツールのダウンロードや環境設定不要で、テキスト・画像・スケッチから3D作品を生成可能。プロデザイナーから一般ユーザーまで手軽に3D創作を体験でき、3D技術の普及を推進。....
オンラインで無料かつウォーターマークのないAIビデオ生成ツール。テキストまたは画像から素敵なビデオを生成します。
無料で高速なAIビデオ生成ツール。画像またはテキストから10秒の音声とビデオが同期したHDビデオを作成できます。
S02AIはSora2モデルに基づいており、テキストまたは画像から音声付きの高品質なAIビデオを生成することができます。
無料のAI画像生成ツールで、登録不要でテキストから無制限に画像を生成できます。
meta
$0.58
入力トークン/百万
$2.16
出力トークン/百万
10M
コンテキスト長
openai
-
128k
alibaba
131.1k
gguf-org
flux2-dev-ggufは、FLUX.2-devに基づく画像から画像への変換モデルで、テキストプロンプトに基づいて特定のスタイルの画像を生成するために特別に設計されています。このモデルはComfyUI環境での実行をサポートし、テキスト記述をスタイル化されたビジュアルコンテンツに変換することができます。
ostris
これはLoRA技術に基づくテキストから画像への変換モデルで、フランスの印象派画家ベルト・モリソーの芸術スタイルを持つ画像を生成するために特別に設計されています。このモデルはFLUX.2-devベースモデル上で訓練され、通常の画像またはテキスト記述をモリソースタイルの絵画に変換することができます。
black-forest-labs
FLUX.2 [dev] は320億のパラメータを持つ補正フロートランスフォーマーモデルで、画像生成、編集、および合成タスクに特化しています。このモデルは、テキストから画像への生成、単一参照編集、および多参照編集においてリーディングレベルであり、微調整なしでキャラクター、オブジェクト、およびスタイルの参照を実現し、個人、科学、および商業用途をサポートします。
Owen777
UltraFluxは、Fluxベースの拡散トランスフォーマーで、ネイティブ4Kのテキストから画像への生成に特化しています。データ、アーキテクチャ、損失関数の協調設計により、様々なアスペクト比で一貫した画像品質を維持することができます。
tencent
混元ビデオ - 1.5は軽量級で高性能なビデオ生成モデルで、わずか83億のパラメータでトップレベルのビデオ品質を提供し、使用の敷居を大幅に下げます。消費者向けGPUでスムーズに動作し、テキストからビデオ、画像からビデオの生成をサポートし、すべての開発者やクリエイターが簡単に使用できます。
nvidia
NVIDIA Nemotron Parse v1.1 TCは、高度な文書意味理解モデルであり、画像から空間位置情報を持つテキストと表要素を抽出し、整形テキスト、バウンディングボックス、意味カテゴリを含む構造化注釈を生成できます。前のバージョンと比べて、速度が20%向上し、無秩序な要素のページ順序を保持します。
sd2-community
Stable Diffusion v2-1-baseは、テキストから画像を生成する拡散モデルで、v2-baseをベースに220kの追加ステップで微調整されています。このモデルは、テキストプロンプトに基づいて画像を生成および修正でき、複数の解像度出力をサポートし、アート創作や教育研究などのさまざまな分野に適しています。
Stable Diffusion v2は拡散モデルに基づくテキストから画像生成モデルで、テキストプロンプトに基づいて画像を生成および修正することができます。このモデルはLAION - 5Bデータセットのサブセットで訓練され、オートエンコーダと拡散モデルを組み合わせて潜在空間で訓練され、複数の解像度とタスクをサポートします。
uriel353
Anime2Realismは、Qwen/Qwen-Imageベースモデルに基づくテキストから画像への変換モデルで、アニメスタイルからリアルなスタイルへの画像変換を専門に行います。このモデルはLoRAとDiffusers技術を利用して、テキスト記述に基づいて対応するリアルなスタイルの画像を生成することができます。
spooknik
これはUltraReal Fine-TuneモデルのSVDQ量子化バージョンで、DanrisiがFluxをベースに開発したテキストから画像を生成するモデルです。このバージョンは複数の量子化方案を提供し、異なるGPUハードウェアに対応しており、特に非BlackwellシリーズとBlackwellシリーズのGPUに対して最適化されています。
Disty0
このプロジェクトは、騰訊の混元画像3.0モデルを4ビット(UINT4、SVDランク32)で量子化した成果で、SDNQ量子化方法を採用し、テキストから画像の生成タスクに特化しています。
meituan-longcat
LongCat-Videoは136億のパラメータを持つ基礎的なビデオ生成モデルで、テキストからビデオ、画像からビデオ、ビデオのフレーム続き生成などのタスクで優れた性能を発揮し、特に効率的で高品質な長いビデオ生成に長けています。
stablellama
これはQwen/Qwen-Imageモデルに基づくLyCORISアダプターで、テキストから画像への生成と画像から画像への生成タスクに特化しています。このモデルはトレーニング中に検証プロンプトを使用せず、最適化されたトレーニング設定と量子化技術を採用しています。
Flux.1をベースに開発されたテキストから画像生成モデルの量子化バージョンで、SVDQ量子化技術を採用し、INT4とFP4の2種類の量子化形式を提供し、さまざまなハードウェアプラットフォームでの効率的な画像生成に適しています。
J1BベースのFlux.1-Devを開発元とするテキストから画像生成モデルの量子化バージョンで、SVDQuant技術を用いて最適化され、INT4とFP4の2種類の量子化形式を提供し、異なるGPUアーキテクチャのユーザーに適しています。
QuantStack
Jib Mix Fluxは、J1BのFlux.1-Devに基づくテキストから画像生成モデルです。このリポジトリでは、そのSVDQ量子化バージョンを提供しており、INT4とNVFP4の2種類の量子化形式が含まれ、それぞれ異なる世代のGPUハードウェアに適しています。
QuantTrio
Qwen3-VL-32B-Thinking-AWQは、Qwen/Qwen3-VL-32B-Thinkingモデルに基づく量子化バージョンで、通義シリーズの中で最も強力なビジュアル言語モデルです。このモデルは、卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力を備え、長いコンテキストとビデオ理解をサポートし、画像テキストからテキストへの変換タスクに適しています。
Flux.1をベースに開発されたテキストから画像生成モデルのSVDQ量子化バージョンで、INT4とFP4の2種類の量子化形式を提供し、異なるGPUアーキテクチャに合わせて最適化されています。画像品質を維持しながら、VRAM使用量を大幅に削減し、推論速度を向上させます。
PixelWaveはFlux.1をベースに開発されたテキストから画像生成モデルで、Nunchaku量子化(SVDQ)による最適化を施し、さまざまなGPU構成のユーザーに効率的な画像生成ソリューションを提供します。
Fluxmania LegacyはFlux.1をベースに開発されたテキストから画像生成モデルです。このリポジトリでは、Nunchaku量子化(SVDQ)を施したバージョンを提供しており、INT4とNVFP4の2種類の精度が含まれ、異なるGPU構成のユーザーに対応しています。
即夢AIをベースにした画像生成サービスで、Cursor IDE用に設計され、テキスト記述から画像の生成と保存を実現します。
Stable Diffusion WebUI APIに基づくテキストから画像を生成するMCPサーバー
Google Geminiモデルに基づくMCPサーバーで、テキストからの画像生成と画像変換機能を提供し、高品質な画像生成、スマートなファイル名生成、ローカル保存をサポートします。
4o-image APIを統合したMCPサーバーの実装で、標準化されたプロトコルを通じてLLMとAIシステムが画像を生成および編集できるようにします。テキストからの画像生成、画像編集などの機能が含まれます。
TypeScriptベースのMCPサーバーで、Flux Schnellモデルを統合してテキストから画像への生成機能を実現します。
OpenSCAD MCPサーバーは、テキストまたは画像からパラメトリック3Dモデルを生成するツールで、多視点再構築とリモート処理をサポートします。
複数のプロバイダーに対応したAI画像生成サーバーで、Google、ZHIPU AI、阿里云百煉をサポートし、テキストからの画像生成と画像変換機能を提供し、MCPクライアントアプリケーションと互換性があります。
TRELLIS Blenderプラグインは、高度なテキスト/画像から3Dモデルを生成する機能をBlenderに統合します。テキストまたは画像を通じてテクスチャ付きの3Dメッシュを生成し、詳細調整機能も提供します。プラグインはMCPサービスも統合しており、Cursor/Windsurfなどのツールと通信できます。
fal.ai APIとMCPプロトコルを通じてテキストから画像を生成するNode.jsツールで、複数のモデルとパラメータをサポートし、開発者やクリエイターが迅速に画像を生成するのに適しています。
Image Gen MCP Serverは、Model Context Protocol(MCP)標準プロトコルを通じて、さまざまなLLMチャットボットにクロスプラットフォーム、多モデルの画像生成機能を提供する汎用AI画像生成サービスです。OpenAIとGoogleの複数の画像モデルをサポートし、テキスト対話からビジュアルコンテンツへのシームレスな変換を実現します。
ComfyUI MCPサーバーは、ComfyUIとMCPを統合するサービス実装で、動作中のComfyUIサーバーと併用する必要があります。テキストから画像の生成、画像のダウンロード、カスタムワークフローの実行などのさまざまな組み込みツールを提供し、UVまたはDocker方式での実行をサポートします。
OpenSCAD MCPサーバーは、テキストまたは画像からパラメトリック3Dモデルを生成するサービスで、多視点再構成、AI画像生成、リモートCUDA処理、ワークフロー承認をサポートし、最終的にOpenSCAD互換のモデルファイルを出力します。
モデルコンテキストプロトコル(MCP)はオープンソースのプロトコルで、一連の参考実装とコミュニティによって開発されたサーバーを提供し、大規模言語モデル(LLM)に安全で制御可能なツールとデータソースへのアクセスを提供することを目的としています。これらのサーバーは、MCPの多様性と拡張性を示しており、ファイルシステム操作からデータベース統合、ウェブ検索からAI画像生成まで、さまざまな機能をカバーしています。
GLM - 4.5Vモデルに基づくMCPサーバーで、インテリジェント画像分析機能を提供し、ファイルパスまたはクリップボードから画像を取得することをサポートし、コード内容の抽出、アーキテクチャ分析、エラー検出、ドキュメント生成に特化しています。
Geminiモデルに基づくテキストから画像への生成MCPサーバー
TypeScriptベースのMCPサーバーで、OPENAIのdall - e - 3モデルを使用してテキストプロンプトから画像を生成し、生成された画像をローカルの指定ディレクトリに保存することをサポートします。
このプロジェクトはScenario.comプラットフォームに基づくMCPサーバーで、テキストから画像生成と画像背景削除機能を提供し、完全な開発環境設定、サンプルコード、テストスクリプトが含まれています。
Freepik Flux AIをベースにしたMCPサーバーで、テキスト説明から画像を生成し、複数の縦横比をサポートし、Claude Desktopと統合されています。
Cloudflare Flux 1 Schnell AIモデルに基づくMCPサーバーの実装で、テキストから画像を生成するサービスインターフェースを提供します。