騰訊混元團隊開源HY-Motion1.0模型,基於DiT架構與流匹配技術,通過文本描述即可生成高質量3D骨骼動畫,兼容主流3D工具,大幅降低動畫製作門檻。該模型採用全階段訓練策略,利用超3000小時動作數據優化生成效果。
阿里巴巴雲發佈兩款AI語音模型,Qwen3-TTS-VD-Flash支持用戶通過文本指令定製聲音,可精確描述聲音的情感、節奏等特徵,實現個性化語音生成。
英偉達在NeurIPS大會上發佈自動駕駛AI模型Alpamayo-R1(AR1),這是全球首個行業級開放推理視覺語言行動模型。它能同時處理文本和圖像,將傳感器信息轉化爲自然語言描述,結合推理鏈AI和路徑規劃技術,以應對複雜駕駛場景,加速無人駕駛汽車發展。
Maya Research推出Maya1文本轉語音模型,30億參數,可在單GPU實時運行。模型通過自然語言描述和文本輸入,生成可控且富有表現力的語音,精準模擬人類情感與聲音細節,如指定年齡、口音或角色特徵。
Seedream 5.0可將文本描述瞬間轉化為精美圖像,免費且無限創作
NanoBananas是一款AI圖像生成平臺,通過簡單的文本描述即可生成驚人的圖像、表情和角色設計。
AI Nano Banana是一款基於AI的圖像生成和編輯平臺,通過簡單的文本描述創建令人驚歎的視覺效果。
使用AI快速生成UML圖表,從簡單的文本描述中生成類圖、ER圖等。快速、直觀、強大。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$6
$24
256
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
$2
gguf-org
flux2-dev-gguf 是一個基於 FLUX.2-dev 的圖像到圖像轉換模型,專門用於根據文本提示生成特定風格的圖像。該模型支持在 ComfyUI 環境中運行,能夠將文本描述轉換為風格化的視覺內容。
ostris
這是一個基於LoRA技術的文本到圖像轉換模型,專門用於生成具有法國印象派畫家貝爾特·莫里索藝術風格的圖像。該模型在FLUX.2-dev基礎模型上訓練,能夠將普通圖像或文本描述轉換為莫里索風格的畫作。
uriel353
Anime2Realism是一個基於Qwen/Qwen-Image基礎模型的文本到圖像轉換模型,專門實現從動漫風格到寫實風格的圖像轉換。該模型利用LoRA和Diffusers技術,能夠根據文本描述生成相應的寫實風格圖像。
QuantStack
這是一個將hlwang06/HoloCine模型轉換為GGUF格式的文本到視頻生成模型,支持通過文本描述生成視頻內容,採用Apache-2.0許可證。
GatorBarbarian
TRELLIS Text XL是一個大型3D生成模型,是TRELLIS的文本條件版本,模型大小為XL。該模型基於論文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能夠根據文本描述生成高質量的3D內容。
briaai
FIBO是首個專為長結構化描述訓練的開源文本到圖像模型,為可控性、可預測性和特徵解耦設定了新標準。該模型擁有80億參數,僅使用有許可的數據進行訓練,支持專業工作流程需求。
lichorosario
這是一個基於Qwen-Image模型訓練的LoRA(Low-Rank Adaptation)模型,專門用於文本到圖像的生成任務。該項目使用AI Toolkit訓練,能夠將文本描述轉化為高質量的圖像,支持在多種圖像生成工具中使用。
bghira
這是一個基於PixArt-900M-1024模型的LyCORIS適配器,專門用於文本到圖像的轉換任務。該模型能夠根據輸入的文本描述生成相應的圖像,支持多種分辨率的圖像生成。
rajinikarcg
這是一個基於BERT微調的軟件需求二分類模型,專門用於識別和分類軟件需求文檔中的需求與非需求文本,準確區分功能性需求描述與其他內容。
MadhavRupala
Stable Diffusion v1-5是基於潛在擴散技術的文本到圖像生成模型,能夠根據文本描述生成逼真的圖像。該模型在LAION-2B數據集上訓練,支持英語文本輸入,生成512x512分辨率的圖像。
這是一個基於Qwen-Image模型使用LoRA技術進行微調的文本到圖像生成模型,能夠將輸入的文本描述轉化為對應的圖像,支持生成人物形象、影視角色和特定場景等多種類型的圖像。
John6666
Illustrious-xl-early-release-v0 是一款基於 Stable Diffusion XL 架構的文本到圖像生成模型,專門針對動漫和2D插畫風格進行優化,能夠根據文本描述生成高質量的圖像作品。
hunyuanvideo-community
混元圖像2.1是基於diffusers庫的文生圖模型,能夠根據文本描述生成高質量的圖像,支持中英雙語輸入,為用戶提供便捷的圖像生成體驗。
manycore-research
FLUX.1 Wireframe [dev] LoRA 是 FLUX.1-Layout-ControlNet 的改進版本,作為 SpatialGen 的關鍵組件,能夠根據文本描述生成圖像,同時遵循給定線框圖像的結構。該模型適用於 FLUX.1 [dev] 框架,專門用於室內場景生成任務。
uwcc
poshanimals是一個基於FLUX.1-dev模型訓練的文本到圖像生成模型,使用AI Toolkit by Ostris訓練,能夠根據文本描述生成具有特定風格的圖像作品。
tekoaly4
這是一個基於stabilityai/stable-diffusion-3.5-large的LyCORIS適配器,專門用於文本到圖像生成,能夠根據文本描述生成高質量的產品攝影圖像,特別針對Borges品牌產品進行了優化。
FLUX.1-Layout-ControlNet是SpatialGen框架的關鍵組件,是一個基於語義圖像條件化的ControlNet模型。它能夠根據文本描述生成2D圖像,同時嚴格遵循輸入語義圖像的佈局約束,主要用於3D室內場景合成。
Immac
NetaYume Lumina Image 2.0 是一個文本到圖像的擴散模型,經過GGUF格式量化處理,能夠將文本描述轉換為圖像。該模型經過優化,在保持生成質量的同時減少了內存使用和提升了性能。
davidrd123
這是一個基於Qwen/Qwen-Image的LyCORIS適配器,專門用於文本到圖像的生成任務。該模型能夠根據輸入的文本描述生成相應的圖像,特別擅長生成具有塗鴉風格和混合媒體效果的圖像內容。
duyntnet
Chroma 是一個高質量的文本到圖像生成模型,專注於生成逼真的圖像內容。該模型採用先進的擴散技術,能夠根據文本描述生成高質量的視覺內容,特別適合本地部署環境下的圖像創作需求。
基於即夢AI的圖像生成服務,專為Cursor IDE設計,實現文本描述到圖像的生成與保存。
一個基於Google Gemini圖像生成模型的MCP服務器,允許AI代理通過文本提示生成、編輯和描述圖像,支持多種模型和配置選項。
一個基於Go語言的MCP服務器,通過OpenAI的DALL-E API實現文本描述生成圖像功能,可與Claude等大型語言模型集成使用。
MCP-Diagram是一個通過文本描述快速生成多種類型圖表(如架構圖、UML類圖等)的服務器工具,支持與Claude等AI助手集成。
該項目實現了一個MCP服務器,通過OpenAI的gpt-image-1模型提供圖像生成和編輯功能,支持文本描述生成圖像、基於參考圖像編輯或修復圖像,並可將結果保存到本地。
一個提供圖像識別功能的MCP服務器,支持Anthropic和OpenAI的視覺API,具備圖像描述、多格式支持、可配置主備服務商及OCR文本提取功能。
Flux Image MCP Server是一個基於Flux Schnell模型的圖像生成服務,通過Replicate平臺提供API接口,支持通過文本描述生成圖像。
Gemini Nanobanana MCP 是一個讓用戶通過文本描述生成AI圖像的Claude插件,集成了Google Gemini 2.5 Flash圖像生成功能,支持多種圖像編輯和創作方式。
一個基於Inspire後端圖像搜索能力的MCP服務器,提供通過文本描述搜索相似圖片的功能。
一個基於grep命令的MCP服務器,提供強大的文本搜索功能,支持自然語言描述和正則表達式搜索。
Nano Banana是一個專業的MCP擴展,用於通過文本描述生成、編輯和修復圖像,支持多種圖像處理功能,如生成圖標、圖案、故事和圖表等。
一個基於Freepik Flux AI的MCP服務器,用於通過文本描述生成圖像,支持多種寬高比,並與Claude Desktop集成。
一個基於Go語言的MCP服務器,通過OpenAI的DALL-E API實現文本描述生成圖像功能,支持與Claude等大型語言模型集成。
一個基於Amazon Bedrock Nova Canvas模型的MCP服務器,提供高質量的AI圖像生成服務,支持文本描述生成圖像、負面提示優化、尺寸配置和種子控制等功能。
一個基於HTTP的圖片生成服務器,通過調用Replicate的Flux Schnell模型來根據文本描述生成圖像。