vLLM团队推出首个“全模态”推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念验证变为可落地的代码。该框架采用解耦流水线架构,包括模态编码器(如ViT、Whisper)、LLM核心(沿用vLLM自回归引擎)和模态生成器(如DiT、Stable Diffusion),支持多模态输入与输出。开发者可通过GitHub和ReadTheDocs获取,并立即pip安装使用。
Black Forest Labs发布FLUX.2系列四款模型,开源32B参数版本。核心突破:支持10图参考生成一致性超95%的图像,可锁定姿势光影配色;4MP编辑功能实现局部重绘与背景替换,分辨率达400万像素并计划支持PSD分层导出。
ComfyUI云平台公测上线,用户无需本地部署和高端显卡,通过浏览器即可使用全功能Stable Diffusion进行AI图像生成,大幅降低使用门槛,让普通创作者轻松获得专业级AI视觉生产力。
伦敦高等法院裁定Stable Diffusion训练AI模型不构成版权侵权。Getty Images曾指控其抓取数百万版权照片威胁创意产业,但最终放弃主要诉求。案件焦点在于使用版权图像训练AI是否侵权,裁决对AI开发与版权平衡具重要意义。
一款基于 Stable Diffusion 的免费在线 AI 绘画工具。
为 Diffusion Transformer 提供高效灵活的控制框架。
这是一个基于HunyuanVideo模型的适配器,用于基于关键帧的视频生成。
Animagine XL 4.0 是一款专注于动漫风格的Stable Diffusion XL模型,专为生成高质量动漫图像而设计。
Google
-
输入tokens/百万
输出tokens/百万
上下文长度
sd2-community
Stable Diffusion v2-1-base是基于文本生成图像的扩散模型,在v2-base基础上进行了220k额外步骤的微调优化。该模型能够根据文本提示生成和修改图像,支持多种分辨率输出,适用于艺术创作、教育研究等多个领域。
Stable Diffusion v2 是一个基于扩散模型的文本到图像生成模型,能够根据文本提示生成和修改图像。该模型在LAION-5B数据集子集上训练,结合了自编码器和扩散模型,在潜在空间中进行训练,支持多种分辨率和任务。
Stable Diffusion v2-1-unclip是基于Stable Diffusion 2.1微调的扩散模型,能够接受文本提示和CLIP图像嵌入,用于创建图像变体或与文本到图像的CLIP先验结合使用。
AbstractPhil
这是一个实验性的Stable Diffusion 1.5蒸馏模型,采用v-预测流匹配方法和几何引导的自适应块加权技术。目前处于研究阶段,训练正在进行中,结果尚未验证。
ashllay
基于Stable Diffusion XL,采用Inversion-DPO方法微调UNet权重,结合直接偏好优化(DPO)技术和反演方法,提升图像生成质量和对齐度的扩散模型
Cassius6668
这是基于Stable Diffusion XL基础模型1.0的LoRA适配权重,专门针对特定风格进行了微调,可用于生成具有特定艺术风格的图像。
John6666
XL-Sat-IOR是一款基于Stable Diffusion和Stable Diffusion XL架构的文本到图像生成模型,能够生成具有高度真实感、丰富色彩、电影质感、精细细节、出色光影和生动面部表情的图像。
MadhavRupala
Stable Diffusion v1-5是基于潜在扩散技术的文本到图像生成模型,能够根据文本描述生成逼真的图像。该模型在LAION-2B数据集上训练,支持英语文本输入,生成512x512分辨率的图像。
这是一个基于Stable Diffusion和Stable Diffusion XL技术的文本到图像生成模型,专门优化了人物肖像、纹理和皮肤表现,能够生成逼真自然的图像。
这是一个基于Stable Diffusion XL的文本到图像生成模型,专门针对亚洲风格图像生成进行了优化,能够生成具有真实感和美感的图像作品。
诺瓦动漫XL是一个基于Stable Diffusion XL架构的文本到图像生成模型,专门用于生成高质量的动漫、奇幻、风景等多种风格的图像。它融合了多个优秀基础模型的优势,在细节、角色、背景和色彩表现方面有突出表现。
Illustrious-xl-early-release-v0 是一款基于 Stable Diffusion XL 架构的文本到图像生成模型,专门针对动漫和2D插画风格进行优化,能够根据文本描述生成高质量的图像作品。
worstcoder
这是一个基于DiffusionNFT方法对SD3.5-Medium进行微调的LoRA模型,采用创新的在线强化学习范式,在文本到图像生成任务上表现出色,显著提升了生成质量和训练效率。
nunchaku-tech
基于Stable Diffusion XL Base 1.0的量化版本,通过SVDQuant技术实现4位量化,在保持高质量图像生成能力的同时显著提升推理效率。
Illustrious-xl-early-release-v0是一款基于Stable Diffusion XL技术的文本到图像生成模型,专注于生成动漫、半写实和华丽风格的图像。该模型由reijlita开发,支持高质量的图像生成,适用于多种创意场景。
基于Stable Diffusion XL技术的文生图模型,专门生成动漫风格女孩图像,为创意设计领域提供支持
Noobai-XL-1.0是基于Stable Diffusion XL技术的文本到图像生成模型,专注于生成逼真、写实风格的图像,为图像创作领域提供高质量的AI生成解决方案。
基于Stable Diffusion XL的文本到图像生成模型,专注于生成高质量、细节丰富的图像,特别擅长动漫、半写实和写实风格,在手部细节和画面亮度方面有显著改进
Realistic Vision V5.1 是一个基于 Stable Diffusion XL 的文本到图像生成模型,专注于生成高质量、逼真的人物肖像和场景图像。该模型支持多种风格,包括写实、动漫、游戏等,能够生成具有高度真实感的人物、女演员肖像以及动漫风格图像。
暗影沉默是一款基于Stable Diffusion XL技术的文本到图像生成模型,专注于生成具有神秘魅力的动漫风格女性角色图像,在明暗对比处理上表现出色。
DiffuGen是一个先进的本地图像生成工具,集成了MCP协议,支持多种AI模型(包括Flux和Stable Diffusion系列),可直接在开发环境中生成高质量图像。它提供了灵活的配置选项、多GPU支持,并可通过MCP协议与多种IDE集成,同时提供OpenAPI接口供外部调用。
一个基于MCP服务器的PowerPoint演示文稿生成项目,支持通过API调用Stable Diffusion生成图片,并提供多种幻灯片模板和编辑功能。
一个基于Stable Diffusion WebUI API的文本生成图像MCP服务器
该项目是一个集成Stable Diffusion图像生成功能的MCP服务器,为AI代理提供图像生成服务,支持通过MCP协议或直接API调用生成图像,并包含开发调试工具。
StableMCP是一个基于JSON-RPC 2.0的模型上下文协议(MCP)服务器,用于通过Stable Diffusion生成图像。
该项目是一个集成Stable Diffusion图像生成功能的MCP服务器,为AI代理提供图像生成服务,包含开发调试工具和Goose平台集成能力。