知名AI专家李飞飞的World Labs推出Marble3D世界模型公测版,支持文本、图像、视频或3D布局直接生成完整可导航的3D虚拟世界。用户可实时交互编辑,并导出高斯溅射、三角网格或视频格式。此次公测标志着该产品从实验室概念转向实用工具。
英国新法授权科技公司与儿童保护机构测试AI工具能否生成儿童性虐待图像。数据显示,2025年AI生成的此类材料报告数量较2024年翻倍,从199件增至426件。此举旨在让开发者提前检查并预防相关风险,加强儿童保护。
Nano Banana2 AI图像模型实现重大突破,攻克复杂细节还原难题,通过模拟人类多阶段创作流程,使图像生成从随机出图迈向可控精修,彻底解决文字、时间、光影等细节易出错的问题,引领行业进入精准生成新阶段。
字节跳动发布InfinityStar框架,视频生成效率大幅提升,5秒720p视频仅需58秒。该框架统一支持图像生成、文本生成视频、视频续写等多种视觉任务,基于对视频数据本质的深入理解,采用创新的时空分离设计,突破传统3D数据块处理方式。
专业AI图像与视频生成平台,用多种AI工具打造惊艳视觉效果。
下一代AI图像生成和编辑模型,支持4K,超写实效果,控制精准
一款免费在线 AI 图像编辑器,快速生成独特视觉效果。
LoveGen AI 集成最新 AI 模型,一站式创作惊艳图像与视频,快捷有趣。
meta
$1.22
输入tokens/百万
$4.32
输出tokens/百万
1M
上下文长度
openai
$18
$72
128k
tencent
32k
google
$0.72
$2.88
$0.58
$2.16
10M
baidu
$3
$15
-
$1.08
$216
$432
8.2k
$2.52
azure
$0.36
$0.43
alibaba
131.1k
bytedance
$1.5
$4.5
renderartist
Technically Color WAN 2.2是一款专为生成经典电影风格图像而设计的LoRA模型,通过鲜艳调色板、丰富饱和度和戏剧性灯光效果,让生成的图像具有经典电影的独特视觉魅力。
DavidAU
这是一个增强版的多模态视觉语言模型,基于Qwen3-VL-8B-Thinking模型,通过Brainstorm 20x技术扩展至12B参数,采用NEO Imatrix增强的GGUF量化。模型具备强大的图像理解、文本生成和多模态推理能力,在视觉感知、文本质量和创意场景方面都有显著提升。
ggml-org
这是一个基于Qwen3-VL-30B-A3B-Instruct模型转换的GGUF格式版本,专门为llama.cpp优化。该模型是一个300亿参数的多模态视觉语言模型,支持图像理解和文本生成任务。
tlennon-ie
Qwen-Edit-Skin是基于Qwen/Qwen-Image-Edit-2509模型微调的LoRA模型,专注于提升图像中人物皮肤的真实感与细节,生成更自然、细腻的皮肤纹理。
peteromallet
QwenEdit InScene LoRAs是基于QwenEdit微调的模型组,专注于增强基于场景参考生成图像的能力。包含InScene主模型和InScene Annotate两个组件,能够在保持角色一致性和场景连贯性的同时创建全新的场景镜头。
lmstudio-community
Qwen3-VL-2B-Thinking是由Qwen推出的视觉语言模型,基于2B参数规模,使用MLX进行8位量化,专门针对Apple Silicon芯片进行了优化。该模型支持图像和文本的多模态理解与生成任务。
Qwen
Qwen3-VL-2B-Instruct-GGUF是通义千问系列的多模态视觉语言模型的GGUF量化版本,具备20亿参数,支持图像理解和文本生成的无缝融合,可在CPU、GPU等设备上高效运行。
spooknik
这是UltraReal Fine-Tune模型的SVDQ量化版本,由Danrisi基于Flux开发,是一款文本到图像生成模型。该版本提供了多种量化方案,适配不同GPU硬件,特别针对非Blackwell系列和Blackwell系列GPU进行了优化。
Disty0
本项目是对腾讯混元图像3.0模型进行4位(UINT4,SVD秩为32)量化的成果,采用了SDNQ量化方法,专门用于文本到图像的生成任务。
valiantcat
这是一个基于Wan2.1的飞行模型/子弹时间视频特效LoRA模型,专门用于生成具有子弹时间特效的图像,能够创造出人物悬浮在空中、相机视角围绕人物旋转的独特视觉效果。
strangervisionhf
这是一个修复后的图像文本转文本模型,解决了原模型在最新Transformers版本中推理失败的问题。该模型专门用于图像识别和文本生成任务,支持多模态输入处理。
meituan-longcat
LongCat-Video是一款具有136亿参数的基础视频生成模型,在文本到视频、图像到视频和视频续帧等生成任务中表现出色,尤其擅长高效、高质量的长视频生成。
stablellama
这是一个基于Qwen/Qwen-Image模型的LyCORIS适配器,专门用于文本到图像和图像到图像的生成任务。该模型在训练过程中未使用验证提示,采用了优化的训练配置和量化技术。
Hugguf
Qwen3-VL-30B-A3B-Instruct是基于Qwen3-VL-30B模型的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。该模型采用先进的视觉语言融合架构,能够处理复杂的多模态推理任务。
基于Flux.1开发的文本到图像生成模型的量化版本,采用SVDQ量化技术,提供INT4和FP4两种量化格式,适用于不同硬件平台的高效图像生成。
基于J1B的Flux.1-Dev开发的文本到图像生成模型的量化版本,采用SVDQuant技术进行优化,提供INT4和FP4两种量化格式,适用于不同GPU架构的用户。
QuantTrio
Qwen3-VL-32B-Thinking-AWQ是基于Qwen/Qwen3-VL-32B-Thinking模型的量化版本,是通义系列中最强大的视觉语言模型。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解,适用于图像文本到文本的转换任务。
mlx-community
这是一个基于Qwen3-VL-32B-Thinking模型转换的4位量化版本,专门针对MLX框架优化。该模型是一个32B参数规模的多模态视觉语言模型,具备思维链推理能力,能够同时处理图像和文本输入,生成高质量的文本响应。
ashllay
基于Stable Diffusion XL,采用Inversion-DPO方法微调UNet权重,结合直接偏好优化(DPO)技术和反演方法,提升图像生成质量和对齐度的扩散模型
jayn7
本项目提供了由LightX2V团队开发的万2.2蒸馏模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该版本经过优化,可与ComfyUI-GGUF等工具配合使用,提供高效的推理性能。
AWS MCP Servers是一套基于Model Context Protocol的专用服务器,提供多种AWS相关功能,包括文档检索、知识库查询、CDK最佳实践、成本分析、图像生成等,旨在通过标准化协议增强AI应用与AWS服务的集成。
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景去除和自动缩放功能。
基于即梦AI的图像生成服务,专为Cursor IDE设计,实现文本描述到图像的生成与保存。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景移除和自动缩放功能。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
基于Gemini 2 API的图像生成MCP服务
一个基于FastMCP框架的服务器,通过远程Comfy服务器根据提示生成图像。
一个专注于探索和应用生成式AI(GenAI)的仓库,旨在通过实际案例和资源分享,帮助用户学习和实验GenAI在日常任务中的应用,包括写作、编程、图像生成等。
MCP Kling是首个且唯一完整的Kling AI MCP服务器,提供13种创意工具,支持视频生成、图像处理、唇形同步及虚拟试衣等功能,实现与Claude的无缝集成,适用于内容创作者和开发者。
一个基于Python的轻量级MCP服务器,通过WebSocket与本地ComfyUI交互,实现AI代理程序化生成图像。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
Azure OpenAI DALL-E 3集成服务器,通过MCP协议提供图像生成与下载功能
基于MCP协议的Pollinations.ai服务接口服务器,提供图像和文本生成功能
Solana交易MCP服务器是一个集成了AI功能的综合服务平台,专注于Solana代币的创建与部署。
一个基于OpenAI DALL-E API的MCP服务器,提供图像生成、编辑和变体功能,支持与Cline集成。
一个基于MCP协议的图像生成服务器,使用Replicate的flux-schnell模型,支持通过文本提示生成图像,并可配置多种参数。