Maya Research推出Maya1文本轉語音模型,30億參數,可在單GPU實時運行。模型通過自然語言描述和文本輸入,生成可控且富有表現力的語音,精準模擬人類情感與聲音細節,如指定年齡、口音或角色特徵。
xAI旗下Grok Imagine實現純文本生成短視頻,用戶輸入描述即可在17秒內獲得帶音效、動態鏡頭和專業畫質的6-15秒視頻,無需圖像輸入或編輯基礎。這一升級打通“想法到成片”環節,以高速優勢挑戰OpenAI Sora和Google Veo的市場地位。
谷歌AI Studio推出全新AI應用構建器,用戶僅需輸入文本描述即可創建AI驅動應用,實現“零代碼”開發。此舉使谷歌與微軟、OpenAI等公司在無代碼工具領域並駕齊驅。核心亮點是深度集成多模態Gemini模型,開發者可利用Nano Banana模型輕鬆實現圖像生成功能。
Snapchat推出"Imagine Lens"新功能,支持用戶通過文本描述生成和編輯圖像,面向付費訂閱用戶開放。該功能允許自定義提示詞創建、修改和重製Snap內容,並支持多平臺分享。這是Snapchat首款開放式生成式AI工具。
NanoBananas是一款AI圖像生成平臺,通過簡單的文本描述即可生成驚人的圖像、表情和角色設計。
AI Nano Banana是一款基於AI的圖像生成和編輯平臺,通過簡單的文本描述創建令人驚歎的視覺效果。
使用AI快速生成UML圖表,從簡單的文本描述中生成類圖、ER圖等。快速、直觀、強大。
AI Doll通過AI生成、3D建模和專業打印將您的文本描述轉化為定製動作人偶。
meta
$0.43
輸入tokens/百萬
輸出tokens/百萬
128k
上下文長度
QuantStack
這是一個將hlwang06/HoloCine模型轉換為GGUF格式的文本到視頻生成模型,支持通過文本描述生成視頻內容,採用Apache-2.0許可證。
GatorBarbarian
TRELLIS Text XL是一個大型3D生成模型,是TRELLIS的文本條件版本,模型大小為XL。該模型基於論文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能夠根據文本描述生成高質量的3D內容。
briaai
FIBO是首個專為長結構化描述訓練的開源文本到圖像模型,為可控性、可預測性和特徵解耦設定了新標準。該模型擁有80億參數,僅使用有許可的數據進行訓練,支持專業工作流程需求。
lichorosario
這是一個基於Qwen-Image模型訓練的LoRA(Low-Rank Adaptation)模型,專門用於文本到圖像的生成任務。該項目使用AI Toolkit訓練,能夠將文本描述轉化為高質量的圖像,支持在多種圖像生成工具中使用。
bghira
這是一個基於PixArt-900M-1024模型的LyCORIS適配器,專門用於文本到圖像的轉換任務。該模型能夠根據輸入的文本描述生成相應的圖像,支持多種分辨率的圖像生成。
rajinikarcg
這是一個基於BERT微調的軟件需求二分類模型,專門用於識別和分類軟件需求文檔中的需求與非需求文本,準確區分功能性需求描述與其他內容。
MadhavRupala
Stable Diffusion v1-5是基於潛在擴散技術的文本到圖像生成模型,能夠根據文本描述生成逼真的圖像。該模型在LAION-2B數據集上訓練,支持英語文本輸入,生成512x512分辨率的圖像。
這是一個基於Qwen-Image模型使用LoRA技術進行微調的文本到圖像生成模型,能夠將輸入的文本描述轉化為對應的圖像,支持生成人物形象、影視角色和特定場景等多種類型的圖像。
John6666
Illustrious-xl-early-release-v0 是一款基於 Stable Diffusion XL 架構的文本到圖像生成模型,專門針對動漫和2D插畫風格進行優化,能夠根據文本描述生成高質量的圖像作品。
manycore-research
FLUX.1 Wireframe [dev] LoRA 是 FLUX.1-Layout-ControlNet 的改進版本,作為 SpatialGen 的關鍵組件,能夠根據文本描述生成圖像,同時遵循給定線框圖像的結構。該模型適用於 FLUX.1 [dev] 框架,專門用於室內場景生成任務。
uwcc
poshanimals是一個基於FLUX.1-dev模型訓練的文本到圖像生成模型,使用AI Toolkit by Ostris訓練,能夠根據文本描述生成具有特定風格的圖像作品。
tekoaly4
這是一個基於stabilityai/stable-diffusion-3.5-large的LyCORIS適配器,專門用於文本到圖像生成,能夠根據文本描述生成高質量的產品攝影圖像,特別針對Borges品牌產品進行了優化。
FLUX.1-Layout-ControlNet是SpatialGen框架的關鍵組件,是一個基於語義圖像條件化的ControlNet模型。它能夠根據文本描述生成2D圖像,同時嚴格遵循輸入語義圖像的佈局約束,主要用於3D室內場景合成。
Immac
NetaYume Lumina Image 2.0 是一個文本到圖像的擴散模型,經過GGUF格式量化處理,能夠將文本描述轉換為圖像。該模型經過優化,在保持生成質量的同時減少了內存使用和提升了性能。
davidrd123
這是一個基於Qwen/Qwen-Image的LyCORIS適配器,專門用於文本到圖像的生成任務。該模型能夠根據輸入的文本描述生成相應的圖像,特別擅長生成具有塗鴉風格和混合媒體效果的圖像內容。
duyntnet
Chroma 是一個高質量的文本到圖像生成模型,專注於生成逼真的圖像內容。該模型採用先進的擴散技術,能夠根據文本描述生成高質量的視覺內容,特別適合本地部署環境下的圖像創作需求。
sothmik
這是一個基於Civitai平臺的文本到圖像生成模型,能夠將文本描述轉換為高質量的圖像。模型支持通過量化工具進行優化,適用於創意設計和視覺內容生成。
Clybius
FLUX.1 Krea [dev] 是一個擁有120億參數的整流流變換器模型,專門用於根據文本描述生成高質量圖像。該模型採用FP8量化技術,具備與原始FLUX.1 [dev]相同的特性,但經過優化以提升性能。模型輸出可用於個人、科學和商業目的,但需遵守非商業許可協議。
InvokeAI
FLUX.1 Krea [dev] 是一個擁有120億參數的整流流變換器,能夠根據文本描述生成高質量圖像。該模型專注於美學攝影,在圖像質量和指令遵循方面表現卓越,採用引導蒸餾進行高效訓練,並開放權重以推動科研和藝術創作。
FLUX.1 Krea [dev] 是一個擁有120億參數的先進整流流變換器模型,專門用於根據文本描述生成高質量圖像。該模型在美學攝影領域表現卓越,具有出色的提示遵循能力,採用引導蒸餾技術訓練,並開放權重供非商業用途使用。
基於即夢AI的圖像生成服務,專為Cursor IDE設計,實現文本描述到圖像的生成與保存。
MCP-Diagram是一個通過文本描述快速生成多種類型圖表(如架構圖、UML類圖等)的服務器工具,支持與Claude等AI助手集成。
一個基於Go語言的MCP服務器,通過OpenAI的DALL-E API實現文本描述生成圖像功能,可與Claude等大型語言模型集成使用。
該項目實現了一個MCP服務器,通過OpenAI的gpt-image-1模型提供圖像生成和編輯功能,支持文本描述生成圖像、基於參考圖像編輯或修復圖像,並可將結果保存到本地。
一個提供圖像識別功能的MCP服務器,支持Anthropic和OpenAI的視覺API,具備圖像描述、多格式支持、可配置主備服務商及OCR文本提取功能。
Flux Image MCP Server是一個基於Flux Schnell模型的圖像生成服務,通過Replicate平臺提供API接口,支持通過文本描述生成圖像。
一個基於Inspire後端圖像搜索能力的MCP服務器,提供通過文本描述搜索相似圖片的功能。
Gemini Nanobanana MCP 是一個讓用戶通過文本描述生成AI圖像的Claude插件,集成了Google Gemini 2.5 Flash圖像生成功能,支持多種圖像編輯和創作方式。
一個基於grep命令的MCP服務器,提供強大的文本搜索功能,支持自然語言描述和正則表達式搜索。
一個基於Freepik Flux AI的MCP服務器,用於通過文本描述生成圖像,支持多種寬高比,並與Claude Desktop集成。
一個基於Go語言的MCP服務器,通過OpenAI的DALL-E API實現文本描述生成圖像功能,支持與Claude等大型語言模型集成。
一個基於Amazon Bedrock Nova Canvas模型的MCP服務器,提供高質量的AI圖像生成服務,支持文本描述生成圖像、負面提示優化、尺寸配置和種子控制等功能。
一個基於HTTP的圖片生成服務器,通過調用Replicate的Flux Schnell模型來根據文本描述生成圖像。