谷歌AI助手Gemini新增Personal Intelligence功能,可连接用户Google Photos相册,自动调用私人照片生成个性化图像,无需手动上传。配合Nano Banana工具,用户可便捷创建定制化内容,如生成与家人的动画风格合影。更新旨在提升AI回应的个性化和便捷性。
英伟达发布Lyra2.0系统,通过单张照片即可生成延伸90米的大规模、高连贯性3D虚拟环境,解决了长距离相机路径下的图像失真问题。该技术突破标志着AI在3D空间理解与实时环境模拟领域取得重要进展,尤其满足了具身智能训练对高质量虚拟场景的迫切需求。
微软推出升级版图像生成模型MAI-Image-2-Efficient,主打低成本与高效能。该模型以近乎半价提供生产级质量,适合企业快速生成产品实拍图和UI原型图。生成速度提升22%,整体效率提高4倍,成本显著降低。
谷歌AI助手Gemini推出交互式图像生成功能,基于Nano Banana技术,可将复杂主题转化为动态交互模拟。用户通过“向我展示”等指令触发可视化图表按钮,系统即生成可操作数字模拟程序,信息承载力强,例如能演示月球相关动态过程。
专业AI图像与视频创作平台,可生成内容并直接发布到社交媒体。
Happy Horse 1.0是在线AI视频生成器,支持文本和图像转视频,无音频。
一站式AI图像与视频生成平台,20+模型,免提示词,按使用付费。
AIGPTS集成顶尖AI模型,可快速创建视频、图像、音频等AI内容。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
dx8152
这是一个基于Qwen-Image-Edit-2509的LoRA微调模型,专门用于解决图像二次光照处理问题。它能够移除原始图像的光照效果,并根据参考图像的光照和色调,为目标图像重新生成逼真的照明和阴影,实现图像风格的迁移与融合。
GuangyuanSD
Z-Image-Re-Turbo 是一个基于文本生成图像的模型,它在 Z-Image-De-Turbo 模型的基础上进行了去还原和重新加速优化。该模型旨在兼顾训练时的便利性与推理时的速度,恢复了接近原始 Turbo 模型的快速生成能力,同时保持了与 Z-Image-De-Turbo 相同的训练友好特性,使其能够完美兼容 Z-Image 生态系统中已训练的大量 LoRA 模型。
AlekseyCalvin
这是一个针对 Z-Image Turbo DiT 模型的低秩适配器(LoRA),专门用于生成具有历史照片风格的图像。该模型基于 1900-1910 年代摄影师 Sergey Prokudin-Gorsky 的 150 张彩色照片训练而成,能够为现代图像生成注入独特的早期彩色摄影美学,如暖色调光晕和特定色彩质感。
jayhuang92
Qwen-Image 是基于 Qwen 系列开发的文本到图像生成模型,支持中英双语输入,在多个评估指标上表现优异,特别适用于追求逼真效果的图像生成场景。
AiAF
D-ART - LoRA - Z-Image-Turbo 是一个基于 Tongyi-MAI/Z-Image-Turbo 基础模型的图像生成模型。它是一个LoRA(Low-Rank Adaptation)适配器,旨在为生成图像注入特定的“D-ART”艺术风格。该风格以生成自信、充满活力的年轻女性角色插画为特点,尤其强调角色的曲线和动态姿态。用户通过使用特定的触发词即可激活该风格,生成具有统一美学特征的多样化图像。
NewBie-AI
NewBie image Exp0.1 是一个基于 Next-DiT 架构开发的高效图像生成基础模型,专门用于生成高质量的动漫风格图像。它融合了先进的文本编码器和视觉组件,支持自然语言和结构化标签输入,是多角色动漫图像生成的强大工具。
drbaph
Z-Image(造相)是一个拥有60亿参数的高效图像生成基础模型,专门解决图像生成领域的效率和质量问题。其蒸馏版本Z-Image-Turbo仅需8次函数评估就能达到或超越领先竞品,在企业级H800 GPU上可实现亚秒级推理延迟,并能在16G VRAM的消费级设备上运行。
city96
FLUX.2-dev是由black-forest-labs开发的图像生成和编辑模型,已转换为GGUF格式,专为图像生成任务优化,采用扩散模型架构,支持在ComfyUI框架中使用。
gguf-org
flux2-dev-gguf 是一个基于 FLUX.2-dev 的图像到图像转换模型,专门用于根据文本提示生成特定风格的图像。该模型支持在 ComfyUI 环境中运行,能够将文本描述转换为风格化的视觉内容。
silveroxides
基于 black-forest-labs/FLUX.2-dev 的优化版本图像生成模型,支持图像到图像的生成和编辑任务,采用 fp8_scaled 量化技术提升推理速度,特别适合在低显存 GPU 上使用。
ostris
这是一个基于LoRA技术的文本到图像转换模型,专门用于生成具有法国印象派画家贝尔特·莫里索艺术风格的图像。该模型在FLUX.2-dev基础模型上训练,能够将普通图像或文本描述转换为莫里索风格的画作。
Tongyi-MAI
Z-Image是一款功能强大且高效的图像生成模型,拥有60亿参数。它能有效解决图像生成领域在效率、质量和功能多样性方面的问题,为用户提供高质量的图像生成和编辑服务。
diffusers
FLUX.2-dev是基于NF4量化的DiT和文本编码器的图像生成与编辑模型,提供高质量的图像生成和编辑能力,适用于图像领域的开发应用。
MCG-NJU
SteadyDancer是一个基于图像到视频范式的强大动画框架,专门用于生成高保真且时间连贯的人体动画。该框架通过稳健的首帧保留机制,有效解决了传统方法中的身份漂移问题,在视觉质量和可控性上表现出色,同时显著减少了训练资源需求。
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
00quebec
这是一个专门为 Qwen-Image 设计的开源 LoRA 模型,专注于模拟现代 iPhone 摄影的真实感外观和感觉。模型基于5000多张真实 iPhone 风格照片训练,能够生成清晰、自然、适合社交媒体分享的图像。
black-forest-labs
FLUX.2 [dev] 是一个拥有320亿参数的校正流变压器模型,专门用于图像生成、编辑和组合任务。该模型在文本到图像生成、单参考编辑和多参考编辑方面处于领先水平,无需微调即可实现角色、对象和风格参考,支持个人、科学和商业用途。
jayn7
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
腾讯混元视频1.5模型的量化GGUF版本,专门用于图像转视频和视频生成任务。提供480P分辨率的蒸馏模型和标准模型,支持多种量化精度,包括Q4_K_S、Q8_0和FP16等。
AWS MCP Servers是一套基于Model Context Protocol的专用服务器,提供多种AWS相关功能,包括文档检索、知识库查询、CDK最佳实践、成本分析、图像生成等,旨在通过标准化协议增强AI应用与AWS服务的集成。
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景去除和自动缩放功能。
基于即梦AI的图像生成服务,专为Cursor IDE设计,实现文本描述到图像的生成与保存。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景移除和自动缩放功能。
MCP Kling是首个且唯一完整的Kling AI MCP服务器,提供13种创意工具,支持视频生成、图像处理、唇形同步及虚拟试衣等功能,实现与Claude的无缝集成,适用于内容创作者和开发者。
基于Gemini 2 API的图像生成MCP服务
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
一个基于FastMCP框架的服务器,通过远程Comfy服务器根据提示生成图像。
一个基于Python的轻量级MCP服务器,通过WebSocket与本地ComfyUI交互,实现AI代理程序化生成图像。
一个专注于探索和应用生成式AI(GenAI)的仓库,旨在通过实际案例和资源分享,帮助用户学习和实验GenAI在日常任务中的应用,包括写作、编程、图像生成等。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
一个为Replicate平台实现的MCP协议服务器,提供模型调用和管理工具
一个基于MCP协议的图像生成服务器,使用Replicate的flux-schnell模型,支持通过文本提示生成图像,并可配置多种参数。
Scenario.com MCP服务器项目,提供基于文本生成图像和移除图像背景的API服务。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的工具,支持多视角重建和远程处理。