小紅書と復旦大学はAIペイント技術「InstanceAssemble」を発表し、AIペイントにおける構図作成の難しさを解決し、単純なシーンから複雑なシーンに至るまで正確な画像生成を実現しました。関連論文は頂級会議であるNeurIPS2025に掲載されました。
マイクロソフトが画像から3DツールTRELLIS.2をオープンソース化。1枚の画像だけで、テクスチャ付きの3Dモデルをすぐに生成でき、出力は.glb形式でBlenderやUnityなどのプラットフォームと互換性があります。このツールには4Bモデルが採用されており、512³から1536³の解像度の画像処理をサポートしています。NVIDIA H100グラフィックカードで、512³のモデルを作成するには約3秒のみです。
YouTubeは「Playables Builder」のテスト版を公開し、ユーザーはテキスト、動画、または画像の指示を使って簡単にゲームを作成できます。これは創造力を刺激し、より多くの人がゲーム作成に参加できるようにするためのものです。
OpenAIはGPT Image1.5を発表しました。このモデルによりChatGPTの視覚的なクリエイティブな能力が著しく向上しました。このモデルは高品質な画像を生成でき、ユーザーの指示を正確に理解し、従うことができます。ゼロから作成するだけでなく、アップロードされた写真をもとに編集することも可能です。また、元の写真のコアな要素を保持し、細部の処理も非常に優れています。
CUTY AIは統合型のビジュアルコンテンツ生成プラットフォームで、AIを使って画像や動画を作成します。
Inspix AIは究極のAIビデオと画像作成プラットフォームで、テキストと画像からビデオを生成することができます。
AI駆動の商品画像再作成ツールで、サプライヤーの画像を独自で規制に適合した電子商取引画像に変換します。
専門のAIプロンプト構築ツールとライブラリで、画像、ビデオ、テキスト生成のための構造化されたプロンプトを作成します。
Openai
$2.8
入力トークン/百万
$11.2
出力トークン/百万
1k
コンテキスト長
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
$0.7
$17.5
Anthropic
$21
$105
200
Alibaba
$1
$10
256
$3.9
$15.2
64
Bytedance
$0.8
$2
sd2-community
Stable Diffusion v2-1-unclipはStable Diffusion 2.1をベースに微調整された拡散モデルで、テキストプロンプトとCLIP画像埋め込みを受け取り、画像バリエーションの作成やテキストから画像へのCLIP事前学習モデルと組み合わせて使用できます。
peteromallet
QwenEdit InScene LoRAsは、QwenEditを微調整したモデルグループで、シーン参照に基づく画像生成能力の強化に特化しています。InSceneメインモデルとInScene Annotateの2つのコンポーネントを含み、キャラクターの一貫性とシーンの連続性を維持しながら、新しいシーンレンズを作成することができます。
spooknik
これはProject0モデルのSVDQ量子化バージョンで、Flux DevとFlux Kreaに基づいて作成されたテキストから画像へのモデルです。このモデルは複数の量子化形式を提供し、さまざまなGPUアーキテクチャに対して最適化されており、INT4とFP4量子化バージョンを含み、Blackwellおよび非Blackwell GPUユーザーに適しています。
bunnycore
chroma_art-loraは、生成された画像に独特の芸術的な美感を与えるために特別に設計されたLoRAモデルです。特に鮮やかな色彩とアートスタイルに重点を置いています。アニメ、映画感のある画像やデスクトップ壁紙などのスタイル化されたデジタルアート作品の作成に適しています。
John6666
Noobai-XL-1.0はdiffusersライブラリに基づくテキストから画像への生成モデルで、アニメスタイルのガール画像の生成に特化しています。このモデルはHetaKonekoによって作成され、Laxhar/noobai-XL-1.0をベースにしており、独特なスタイルのアニメ画像を生成することができます。
lodestones
Chroma1-HDはFLUX.1-schnellアーキテクチャに基づくテキストから画像生成の基礎モデルで、89億のパラメータを持ち、Apache 2.0オープンソースライセンスを採用しています。このモデルは微調整用に特別に設計されており、開発者や研究者に強力な画像生成の基礎を提供し、様々な専門的なビジュアルコンテンツの作成をサポートします。
alexnasa
FLUX.1-Kontext-devベースモデルに基づいて作成されたLoRA微調整モデルで、アートスタイルの輝く肖像画像の生成に特化しており、テキストから画像、画像から画像の生成タスクをサポートしています。
Chroma1-Baseは89億のパラメータを持つテキストから画像生成の基礎モデルで、FLUX.1-schnellアーキテクチャに基づいて構築され、Apache 2.0ライセンスを採用しています。このモデルは微調整用に特別に設計されており、開発者、研究者、アーティストに専用の生成モデルを作成するための強力で中立的な基礎を提供します。
これはStable Diffusion XL技術に基づくテキストから画像への生成モデルで、テキストの説明に基づいて高度な詳細とリアルな効果を持つ画像を生成することができます。このモデルはCrHasherによって作成され、写真レベルのリアリズムを持つ画像コンテンツの生成をサポートしています。
aiunivers
BigLust_v1.6と1.7はLoRA技術に基づくテキストから画像への生成モデルで、高品質の人物画像生成、特に有名人の肖像やキャラクター作成に特化しています。
chemwolf
カルヒャー平均マージ方法を使用して作成されたテキストから画像生成モデルで、テキスト記述を画像に変換できます。
unsloth
Gemma 3はGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiモデルを作成したのと同じ研究と技術に基づいています。このモデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成できます。
NewEden
Gemma 3はGoogleが開発した軽量で最先端のオープンソースのマルチモーダルモデルファミリーで、Geminiモデルを作成するための同じ研究と技術に基づいて構築されており、テキストと画像の入力をサポートし、テキスト出力を生成します。
gaunernst
Gemma 3はGoogleが提供する軽量で最先端のオープンモデルファミリーで、Geminiモデルを作成したのと同じ研究と技術に基づいて構築されています。このモデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成できます。
Finanahnahnah
LoRA技術に基づくテキスト生成画像モデルで、レイヤードペーパーアートスタイルのカラフルコラージュ作成に特化しています。
MultiTrickFox
LoRA微調整に基づく拡散モデルで、360度パノラマ画像の生成に特化しており、特に『ナショナルジオグラフィック』スタイルのエキゾチックな景観の作成に適しています。
安定拡散XLをベースにしたアニメスタイルのテキストから画像生成モデル、高品質なアニメキャラクター作成に特化
chatpig
doaはSDXLモデルに基づいて作成されたテキストから画像への生成プロジェクトで、reijlitaによって開発され、高品質なテキストから画像への変換を実現できます。
dima806
Vision Transformer (ViT)を基にした画像分類モデルで、AI生成画像と人間作成画像を区別し、精度は98%に達します。
Yntec
LehinaモデルとDelicateモデルの要素を融合した精密なテキスト生成画像モデル。超写実、美的スタイル、キャラクター作成に優れる。
これはGoogleカレンダーのMCPサーバープロジェクトで、Googleカレンダーとの統合機能を提供し、標準化されたインターフェースを通じてカレンダーイベントの読み取り、作成、更新、検索を可能にします。画像からのイベント追加、カレンダー分析、出席状況確認、イベントの自動調整などの機能をサポートしています。
adb - mcpは、MCPプロトコルを通じてLLMにインターフェースを提供し、Adobeツール(PhotoshopやPremiereなど)を制御するAIエージェントを作成する概念実証プロジェクトです。このプロジェクトには、MCPサーバー、Nodeコマンドプロキシサーバー、およびAdobeアプリケーションプラグインが含まれており、自然言語の命令でAdobeソフトウェアを操作でき、画像およびビデオ編集の自動化に適しています。
LangGraphベースのエージェントツールで、ユーザーがAIを通じて画像を生成し、ストーリーブロックチェーン上のIP資産として登録するのを支援します。画像生成、IPFSアップロード、メタデータ作成、ライセンス条項の交渉、ブロックチェーン登録までの全プロセスを含みます。
Google Gemini APIをベースにしたMCPサーバーで、画像生成機能を提供し、テキストプロンプトによる画像作成をサポートし、生成された画像を自動的にImgBB画像ホスティングサービスにアップロードします。
DALL - E MCPサーバーは、OpenAIのDALL - E APIを通じて画像の生成、編集、および画像バリエーションの作成を行うサービスで、Clineとの統合をサポートし、画像生成および処理機能を提供します。
完全なウェブサイトアイコンセットを自動生成するMCPサービスで、PNG画像またはURLからさまざまなサイズのfavicon、Appleタッチアイコン、およびウェブアプリケーションマニフェストファイルを作成できます。
FastMCPをベースにしたサーバーで、プログラムによってPowerPointプレゼンテーションを作成、編集、レンダリングし、スライド操作、内容追加、画像レンダリング機能をサポートします。
AI機能を統合したソラナトークン発行サーバーで、トークンコンセプト生成、画像作成、DNAシーケンス生成などの革新的な機能を提供し、ソラナブロックチェーン上でのトークン作成とデプロイをサポートします。
Groundlight MCPサーバーは、画像検出器の作成と管理を行うサービスで、2値分類、多クラス分類、カウント機能を含む複数の検出モードをサポートし、画像クエリと結果取得のインターフェースを提供します。
Recraft AI MCPサーバーは、MCPクライアントとRecraft AIの画像処理機能を統合したサーバーで、ラスター/ベクター画像の生成と編集、カスタムスタイルの作成、画像のベクトル化、背景処理、画像の拡大などの機能をサポートしています。
このプロジェクトはMCPプロトコルとpython - pptxライブラリに基づくPPT作成サービスで、チャットインタラクションを通じてPowerPointプレゼンテーションを動的に作成、編集、保存することをサポートしています。スライドの追加、画像や表の挿入などの様々な機能を提供し、ダウンロードリンクを生成し、Base64形式でエクスポートすることもできます。
ユーモラスなMCPサーバーは、モデルコンテキストプロトコル(MCP)に基づくサービスで、プログラミングでユーモラスなチャートを作成できます。このサービスはユーモラスAPIと統合されており、メイマイド記法をチャートに変換し、チャートのURLとbase64エンコードされた画像を返します。
MCPプロトコルに基づくFlux Schnell画像生成サーバー。Replicate APIを通じてAIによる画像作成機能を実現する
OpenAI gpt-image-1モデルに基づく画像生成と編集のMCPサーバーで、テキストプロンプトを通じて画像の作成と修正をサポートし、簡単な統合方法と豊富な設定オプションを提供します。
Word MCP Serverは、FastMCPフレームワークを通じてWord文書を作成および編集するためのPythonベースのAPIサービスで、テキストの書式設定、画像の挿入、表の生成などの機能をサポートしています。
SVGMaker MCPサーバーは、SVGMaker APIに基づく強力なサービスで、SVG画像の生成、編集、変換に使用されます。AI駆動のSVG作成、スマート編集、画像のSVG変換などの機能をサポートし、安全なファイル操作とリアルタイムの進捗更新を提供します。
小米クラウドノートMCPサーバーの実装で、ノートの読み取り、検索、作成、編集、削除などの完全な管理機能をサポートし、MarkdownとXML形式の変換および画像アップロード機能を提供します。
Word MCP ServerはPythonベースのAPIサービスで、自然言語コマンドを通じてWordドキュメントの作成と編集を行い、テキストの書式設定、画像の挿入、表の生成などの機能をサポートします。
レオナルドMCPサーバーは、HTTPとstdioモードをサポートするモデルコンテキストプロトコルサーバーで、レオナルドAIとのインタラクション、画像生成タスクの作成、モデル状態の表示などの機能をサポートしています。
革新的なソラナ取引MCPサーバーで、AIによるトークンコンセプト生成、画像作成、DNAシーケンス生成、およびブロックチェーンデプロイ機能を統合しています。