vLLM團隊推出首個“全模態”推理框架vLLM-Omni,將文本、圖像、音頻、視頻的統一生成從概念驗證變爲可落地的代碼。該框架採用解耦流水線架構,包括模態編碼器(如ViT、Whisper)、LLM核心(沿用vLLM自迴歸引擎)和模態生成器(如DiT、Stable Diffusion),支持多模態輸入與輸出。開發者可通過GitHub和ReadTheDocs獲取,並立即pip安裝使用。
Black Forest Labs發佈FLUX.2系列四款模型,開源32B參數版本。核心突破:支持10圖參考生成一致性超95%的圖像,可鎖定姿勢光影配色;4MP編輯功能實現局部重繪與背景替換,分辨率達400萬像素並計劃支持PSD分層導出。
ComfyUI雲平臺公測上線,用戶無需本地部署和高端顯卡,通過瀏覽器即可使用全功能Stable Diffusion進行AI圖像生成,大幅降低使用門檻,讓普通創作者輕鬆獲得專業級AI視覺生產力。
倫敦高等法院裁定Stable Diffusion訓練AI模型不構成版權侵權。Getty Images曾指控其抓取數百萬版權照片威脅創意產業,但最終放棄主要訴求。案件焦點在於使用版權圖像訓練AI是否侵權,裁決對AI開發與版權平衡具重要意義。
一款基於 Stable Diffusion 的免費在線 AI 繪畫工具。
為 Diffusion Transformer 提供高效靈活的控制框架。
這是一個基於HunyuanVideo模型的適配器,用於基於關鍵幀的視頻生成。
Animagine XL 4.0 是一款專注於動漫風格的Stable Diffusion XL模型,專為生成高質量動漫圖像而設計。
Google
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
sd2-community
Stable Diffusion v2-1-base是基於文本生成圖像的擴散模型,在v2-base基礎上進行了220k額外步驟的微調優化。該模型能夠根據文本提示生成和修改圖像,支持多種分辨率輸出,適用於藝術創作、教育研究等多個領域。
Stable Diffusion v2 是一個基於擴散模型的文本到圖像生成模型,能夠根據文本提示生成和修改圖像。該模型在LAION-5B數據集子集上訓練,結合了自編碼器和擴散模型,在潛在空間中進行訓練,支持多種分辨率和任務。
Stable Diffusion v2-1-unclip是基於Stable Diffusion 2.1微調的擴散模型,能夠接受文本提示和CLIP圖像嵌入,用於創建圖像變體或與文本到圖像的CLIP先驗結合使用。
AbstractPhil
這是一個實驗性的Stable Diffusion 1.5蒸餾模型,採用v-預測流匹配方法和幾何引導的自適應塊加權技術。目前處於研究階段,訓練正在進行中,結果尚未驗證。
ashllay
基於Stable Diffusion XL,採用Inversion-DPO方法微調UNet權重,結合直接偏好優化(DPO)技術和反演方法,提升圖像生成質量和對齊度的擴散模型
Cassius6668
這是基於Stable Diffusion XL基礎模型1.0的LoRA適配權重,專門針對特定風格進行了微調,可用於生成具有特定藝術風格的圖像。
John6666
XL-Sat-IOR是一款基於Stable Diffusion和Stable Diffusion XL架構的文本到圖像生成模型,能夠生成具有高度真實感、豐富色彩、電影質感、精細細節、出色光影和生動面部表情的圖像。
MadhavRupala
Stable Diffusion v1-5是基於潛在擴散技術的文本到圖像生成模型,能夠根據文本描述生成逼真的圖像。該模型在LAION-2B數據集上訓練,支持英語文本輸入,生成512x512分辨率的圖像。
這是一個基於Stable Diffusion和Stable Diffusion XL技術的文本到圖像生成模型,專門優化了人物肖像、紋理和皮膚表現,能夠生成逼真自然的圖像。
這是一個基於Stable Diffusion XL的文本到圖像生成模型,專門針對亞洲風格圖像生成進行了優化,能夠生成具有真實感和美感的圖像作品。
Illustrious-xl-early-release-v0 是一款基於 Stable Diffusion XL 架構的文本到圖像生成模型,專門針對動漫和2D插畫風格進行優化,能夠根據文本描述生成高質量的圖像作品。
worstcoder
這是一個基於DiffusionNFT方法對SD3.5-Medium進行微調的LoRA模型,採用創新的在線強化學習範式,在文本到圖像生成任務上表現出色,顯著提升了生成質量和訓練效率。
nunchaku-tech
基於Stable Diffusion XL Base 1.0的量化版本,通過SVDQuant技術實現4位量化,在保持高質量圖像生成能力的同時顯著提升推理效率。
Illustrious-xl-early-release-v0是一款基於Stable Diffusion XL技術的文本到圖像生成模型,專注於生成動漫、半寫實和華麗風格的圖像。該模型由reijlita開發,支持高質量的圖像生成,適用於多種創意場景。
基於Stable Diffusion XL技術的文生圖模型,專門生成動漫風格女孩圖像,為創意設計領域提供支持
Noobai-XL-1.0是基於Stable Diffusion XL技術的文本到圖像生成模型,專注於生成逼真、寫實風格的圖像,為圖像創作領域提供高質量的AI生成解決方案。
基於Stable Diffusion XL的文本到圖像生成模型,專注於生成高質量、細節豐富的圖像,特別擅長動漫、半寫實和寫實風格,在手部細節和畫面亮度方面有顯著改進
Realistic Vision V5.1 是一個基於 Stable Diffusion XL 的文本到圖像生成模型,專注於生成高質量、逼真的人物肖像和場景圖像。該模型支持多種風格,包括寫實、動漫、遊戲等,能夠生成具有高度真實感的人物、女演員肖像以及動漫風格圖像。
暗影沉默是一款基於Stable Diffusion XL技術的文本到圖像生成模型,專注於生成具有神秘魅力的動漫風格女性角色圖像,在明暗對比處理上表現出色。
Realism Illustrious 是一個基於 Stable Diffusion XL 的文本到圖像生成模型,專門針對動漫和寫實風格的圖像生成進行了優化。該模型在人物細節、色彩梯度和動態範圍方面表現出色,能夠生成高質量的視覺內容。
DiffuGen是一個先進的本地圖像生成工具,集成了MCP協議,支持多種AI模型(包括Flux和Stable Diffusion系列),可直接在開發環境中生成高質量圖像。它提供了靈活的配置選項、多GPU支持,並可通過MCP協議與多種IDE集成,同時提供OpenAPI接口供外部調用。
該項目是一個集成Stable Diffusion圖像生成功能的MCP服務器,為AI代理提供圖像生成服務,支持通過MCP協議或直接API調用生成圖像,幷包含開發調試工具。
一個基於Stable Diffusion WebUI API的文本生成圖像MCP服務器
一個基於MCP服務器的PowerPoint演示文稿生成項目,支持通過API調用Stable Diffusion生成圖片,並提供多種幻燈片模板和編輯功能。
StableMCP是一個基於JSON-RPC 2.0的模型上下文協議(MCP)服務器,用於通過Stable Diffusion生成圖像。
該項目是一個集成Stable Diffusion圖像生成功能的MCP服務器,為AI代理提供圖像生成服務,包含開發調試工具和Goose平臺集成能力。