小红书Super Intelligence团队于2026年3月9日发布图像编辑模型FireRed-Image-Edit v1.1,距1.0版本发布不足一个月,迭代速度加快。新版本在保持前代优势的同时,针对ID一致性编辑、多元素融合、人像美妆及字体风格参考等复杂场景深度优化,提升了语义理解和视觉生成能力。
DeepSeek将于下周发布多模态大模型V4,支持图像、视频及文本生成。该模型全面适配国产算力,旨在优化与中国制造芯片的兼容性,有望推动本土半导体需求并加速AI推理与国产芯片的融合。
深度求索将于下周发布多模态大模型V4,原生支持图像、视频与文本生成,旨在填补国内高性能低成本开源多模态模型市场空白。这是继1月发布R1推理模型后的首次重大更新。发布初期将提供简要技术说明,一个月后公开详细工程报告。V4模型已与华为、寒武纪完成底层生态合作。
深度求索将于下周推出多模态大模型DeepSeek V4,原生支持图像、视频和文本生成。这是继今年1月发布R1推理模型后的首次重大更新,旨在满足国内对低成本开源模型的需求,推动AI发展。同时将发布简要技术说明,详细版本预计一个月后推出。
OpenAI的下一代视频音频生成模型,可从文本或图像生成高品质视频。
一个强大的 AI 视频生成模型,将文本或图像转化为电影级视频。
HeyVid AI是一体化AI视频和图像生成器,免费使用超18种顶尖模型
字节跳动的最新 AI 图像生成模型,秒速创建惊艳图像,免费使用。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
dx8152
这是一个基于Qwen-Image-Edit-2509的LoRA微调模型,专门用于解决图像二次光照处理问题。它能够移除原始图像的光照效果,并根据参考图像的光照和色调,为目标图像重新生成逼真的照明和阴影,实现图像风格的迁移与融合。
GuangyuanSD
Z-Image-Re-Turbo 是一个基于文本生成图像的模型,它在 Z-Image-De-Turbo 模型的基础上进行了去还原和重新加速优化。该模型旨在兼顾训练时的便利性与推理时的速度,恢复了接近原始 Turbo 模型的快速生成能力,同时保持了与 Z-Image-De-Turbo 相同的训练友好特性,使其能够完美兼容 Z-Image 生态系统中已训练的大量 LoRA 模型。
AlekseyCalvin
这是一个针对 Z-Image Turbo DiT 模型的低秩适配器(LoRA),专门用于生成具有历史照片风格的图像。该模型基于 1900-1910 年代摄影师 Sergey Prokudin-Gorsky 的 150 张彩色照片训练而成,能够为现代图像生成注入独特的早期彩色摄影美学,如暖色调光晕和特定色彩质感。
jayhuang92
Qwen-Image 是基于 Qwen 系列开发的文本到图像生成模型,支持中英双语输入,在多个评估指标上表现优异,特别适用于追求逼真效果的图像生成场景。
AiAF
D-ART - LoRA - Z-Image-Turbo 是一个基于 Tongyi-MAI/Z-Image-Turbo 基础模型的图像生成模型。它是一个LoRA(Low-Rank Adaptation)适配器,旨在为生成图像注入特定的“D-ART”艺术风格。该风格以生成自信、充满活力的年轻女性角色插画为特点,尤其强调角色的曲线和动态姿态。用户通过使用特定的触发词即可激活该风格,生成具有统一美学特征的多样化图像。
NewBie-AI
NewBie image Exp0.1 是一个基于 Next-DiT 架构开发的高效图像生成基础模型,专门用于生成高质量的动漫风格图像。它融合了先进的文本编码器和视觉组件,支持自然语言和结构化标签输入,是多角色动漫图像生成的强大工具。
drbaph
Z-Image(造相)是一个拥有60亿参数的高效图像生成基础模型,专门解决图像生成领域的效率和质量问题。其蒸馏版本Z-Image-Turbo仅需8次函数评估就能达到或超越领先竞品,在企业级H800 GPU上可实现亚秒级推理延迟,并能在16G VRAM的消费级设备上运行。
city96
FLUX.2-dev是由black-forest-labs开发的图像生成和编辑模型,已转换为GGUF格式,专为图像生成任务优化,采用扩散模型架构,支持在ComfyUI框架中使用。
gguf-org
flux2-dev-gguf 是一个基于 FLUX.2-dev 的图像到图像转换模型,专门用于根据文本提示生成特定风格的图像。该模型支持在 ComfyUI 环境中运行,能够将文本描述转换为风格化的视觉内容。
silveroxides
基于 black-forest-labs/FLUX.2-dev 的优化版本图像生成模型,支持图像到图像的生成和编辑任务,采用 fp8_scaled 量化技术提升推理速度,特别适合在低显存 GPU 上使用。
ostris
这是一个基于LoRA技术的文本到图像转换模型,专门用于生成具有法国印象派画家贝尔特·莫里索艺术风格的图像。该模型在FLUX.2-dev基础模型上训练,能够将普通图像或文本描述转换为莫里索风格的画作。
Tongyi-MAI
Z-Image是一款功能强大且高效的图像生成模型,拥有60亿参数。它能有效解决图像生成领域在效率、质量和功能多样性方面的问题,为用户提供高质量的图像生成和编辑服务。
diffusers
FLUX.2-dev是基于NF4量化的DiT和文本编码器的图像生成与编辑模型,提供高质量的图像生成和编辑能力,适用于图像领域的开发应用。
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
00quebec
这是一个专门为 Qwen-Image 设计的开源 LoRA 模型,专注于模拟现代 iPhone 摄影的真实感外观和感觉。模型基于5000多张真实 iPhone 风格照片训练,能够生成清晰、自然、适合社交媒体分享的图像。
black-forest-labs
FLUX.2 [dev] 是一个拥有320亿参数的校正流变压器模型,专门用于图像生成、编辑和组合任务。该模型在文本到图像生成、单参考编辑和多参考编辑方面处于领先水平,无需微调即可实现角色、对象和风格参考,支持个人、科学和商业用途。
jayn7
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
腾讯混元视频1.5模型的量化GGUF版本,专门用于图像转视频和视频生成任务。提供480P分辨率的蒸馏模型和标准模型,支持多种量化精度,包括Q4_K_S、Q8_0和FP16等。
easygoing0114
Qwen-Image-Edit-2509_clear 是 Qwen-Image-Edit-2509 模型的微调版本,专门针对图像生成质量进行优化。该模型能够生成更清晰、更鲜艳的图像,具有更高的对比度、更丰富的色彩和更精细的细节表现。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
一个基于MCP协议的图像生成服务器,使用Replicate的flux-schnell模型,支持通过文本提示生成图像,并可配置多种参数。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的工具,支持多视角重建和远程处理。
一个基于Amazon Bedrock的Nova Canvas模型的MCP服务器,支持多种图像生成与编辑功能。
Outsource MCP是一个支持多AI模型提供商的统一接口服务,通过MCP协议让AI应用能便捷调用不同厂商的文本和图像生成能力。
一个基于Google Gemini模型的MCP服务器,提供文本生成图像和图像转换功能,支持高质量图像生成、智能文件名生成和本地存储。
Moondream MCP Server是一个基于Moondream视觉模型的图像分析服务,提供图像描述生成、物体检测和视觉问答功能,可轻松集成到Claude和Cline等AI助手中。
一个基于TypeScript的MCP服务器,使用OPENAI的dall-e-3模型根据文本提示生成图像,并支持将生成的图像保存到本地指定目录。
DiffuGen是一个先进的本地图像生成工具,集成了MCP协议,支持多种AI模型(包括Flux和Stable Diffusion系列),可直接在开发环境中生成高质量图像。它提供了灵活的配置选项、多GPU支持,并可通过MCP协议与多种IDE集成,同时提供OpenAPI接口供外部调用。
一个基于OpenAI GPT-4o/gpt-image-1模型的图像生成与编辑工具,支持通过文本提示生成图像、编辑图像(如修复、扩展、合成等),并兼容多种MCP客户端。
Image Generation MCP Server是一个为Claude Desktop提供图像生成功能的MCP服务器,使用Replicate Flux模型,支持通过文本提示生成图像,并可通过Smithery或npm安装配置。
一个为Windsurf提供图像生成和网页抓取功能的MCP服务器,支持Flux Pro模型生成图像和ScrapeGraph API进行网页内容提取。
一个用于对接Replicate API的FastMCP服务器实现,提供标准化接口访问多种AI模型,目前支持图像生成功能,处于早期开发阶段。
基于Gemini模型的文本到图像生成MCP服务器
Luma API MCP是一个提供图像和视频生成服务的项目,用户可以通过API密钥接入,支持多种比例、模型和分辨率选项,并能通过参考图像或视频关键帧控制生成效果。