百度发布文心5.0全模态大模型,参数达2.4万亿,具备强大语言理解与生成能力。其采用全模态统一建模技术,可同时处理文本、图像、音频和视频,实现多类型数据的融合优化,标志着AI领域的重要进展。
谷歌扩大AI视频工具Flow的访问范围,向商务、企业及教育版Workspace用户开放。该工具搭载Veo3.1模型,可根据文本或图像生成8秒视频片段,支持拼接成更长场景。
苹果推出多模态模型Manzano,通过创新的“双修”架构,解决了AI领域长期存在的视觉理解与图像生成难以兼顾的难题。
苹果最新发布的多模态AI模型“Manzano”,成功将视觉识别与文本生成图像功能结合,实现“双修”能力。该模型不仅能精准理解图像内容,还能根据文本生成高质量图片,标志着AI技术的重要突破,有望满足行业对多功能模型的需求。
Crevid是在线AI视频与图像生成器,支持多种模型创作高质量内容。
Conut.ai是AI图像与视频生成平台,提供多种前沿AI模型。
Vidzoo AI免费生成高分辨率AI视频和图像,多模型集成一键生成
免费AI图像编辑器,支持多模型,可编辑、生成和转换图像。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
dx8152
这是一个基于Qwen-Image-Edit-2509的LoRA微调模型,专门用于解决图像二次光照处理问题。它能够移除原始图像的光照效果,并根据参考图像的光照和色调,为目标图像重新生成逼真的照明和阴影,实现图像风格的迁移与融合。
GuangyuanSD
Z-Image-Re-Turbo 是一个基于文本生成图像的模型,它在 Z-Image-De-Turbo 模型的基础上进行了去还原和重新加速优化。该模型旨在兼顾训练时的便利性与推理时的速度,恢复了接近原始 Turbo 模型的快速生成能力,同时保持了与 Z-Image-De-Turbo 相同的训练友好特性,使其能够完美兼容 Z-Image 生态系统中已训练的大量 LoRA 模型。
AlekseyCalvin
这是一个针对 Z-Image Turbo DiT 模型的低秩适配器(LoRA),专门用于生成具有历史照片风格的图像。该模型基于 1900-1910 年代摄影师 Sergey Prokudin-Gorsky 的 150 张彩色照片训练而成,能够为现代图像生成注入独特的早期彩色摄影美学,如暖色调光晕和特定色彩质感。
jayhuang92
Qwen-Image 是基于 Qwen 系列开发的文本到图像生成模型,支持中英双语输入,在多个评估指标上表现优异,特别适用于追求逼真效果的图像生成场景。
AiAF
D-ART - LoRA - Z-Image-Turbo 是一个基于 Tongyi-MAI/Z-Image-Turbo 基础模型的图像生成模型。它是一个LoRA(Low-Rank Adaptation)适配器,旨在为生成图像注入特定的“D-ART”艺术风格。该风格以生成自信、充满活力的年轻女性角色插画为特点,尤其强调角色的曲线和动态姿态。用户通过使用特定的触发词即可激活该风格,生成具有统一美学特征的多样化图像。
NewBie-AI
NewBie image Exp0.1 是一个基于 Next-DiT 架构开发的高效图像生成基础模型,专门用于生成高质量的动漫风格图像。它融合了先进的文本编码器和视觉组件,支持自然语言和结构化标签输入,是多角色动漫图像生成的强大工具。
drbaph
Z-Image(造相)是一个拥有60亿参数的高效图像生成基础模型,专门解决图像生成领域的效率和质量问题。其蒸馏版本Z-Image-Turbo仅需8次函数评估就能达到或超越领先竞品,在企业级H800 GPU上可实现亚秒级推理延迟,并能在16G VRAM的消费级设备上运行。
city96
FLUX.2-dev是由black-forest-labs开发的图像生成和编辑模型,已转换为GGUF格式,专为图像生成任务优化,采用扩散模型架构,支持在ComfyUI框架中使用。
gguf-org
flux2-dev-gguf 是一个基于 FLUX.2-dev 的图像到图像转换模型,专门用于根据文本提示生成特定风格的图像。该模型支持在 ComfyUI 环境中运行,能够将文本描述转换为风格化的视觉内容。
silveroxides
基于 black-forest-labs/FLUX.2-dev 的优化版本图像生成模型,支持图像到图像的生成和编辑任务,采用 fp8_scaled 量化技术提升推理速度,特别适合在低显存 GPU 上使用。
ostris
这是一个基于LoRA技术的文本到图像转换模型,专门用于生成具有法国印象派画家贝尔特·莫里索艺术风格的图像。该模型在FLUX.2-dev基础模型上训练,能够将普通图像或文本描述转换为莫里索风格的画作。
Tongyi-MAI
Z-Image是一款功能强大且高效的图像生成模型,拥有60亿参数。它能有效解决图像生成领域在效率、质量和功能多样性方面的问题,为用户提供高质量的图像生成和编辑服务。
diffusers
FLUX.2-dev是基于NF4量化的DiT和文本编码器的图像生成与编辑模型,提供高质量的图像生成和编辑能力,适用于图像领域的开发应用。
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
00quebec
这是一个专门为 Qwen-Image 设计的开源 LoRA 模型,专注于模拟现代 iPhone 摄影的真实感外观和感觉。模型基于5000多张真实 iPhone 风格照片训练,能够生成清晰、自然、适合社交媒体分享的图像。
black-forest-labs
FLUX.2 [dev] 是一个拥有320亿参数的校正流变压器模型,专门用于图像生成、编辑和组合任务。该模型在文本到图像生成、单参考编辑和多参考编辑方面处于领先水平,无需微调即可实现角色、对象和风格参考,支持个人、科学和商业用途。
jayn7
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
腾讯混元视频1.5模型的量化GGUF版本,专门用于图像转视频和视频生成任务。提供480P分辨率的蒸馏模型和标准模型,支持多种量化精度,包括Q4_K_S、Q8_0和FP16等。
easygoing0114
Qwen-Image-Edit-2509_clear 是 Qwen-Image-Edit-2509 模型的微调版本,专门针对图像生成质量进行优化。该模型能够生成更清晰、更鲜艳的图像,具有更高的对比度、更丰富的色彩和更精细的细节表现。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的工具,支持多视角重建和远程处理。
一个基于MCP协议的图像生成服务器,使用Replicate的flux-schnell模型,支持通过文本提示生成图像,并可配置多种参数。
一个基于Amazon Bedrock的Nova Canvas模型的MCP服务器,支持多种图像生成与编辑功能。
一个基于TypeScript的MCP服务器,使用OPENAI的dall-e-3模型根据文本提示生成图像,并支持将生成的图像保存到本地指定目录。
DiffuGen是一个先进的本地图像生成工具,集成了MCP协议,支持多种AI模型(包括Flux和Stable Diffusion系列),可直接在开发环境中生成高质量图像。它提供了灵活的配置选项、多GPU支持,并可通过MCP协议与多种IDE集成,同时提供OpenAPI接口供外部调用。
一个基于Google Gemini模型的MCP服务器,提供文本生成图像和图像转换功能,支持高质量图像生成、智能文件名生成和本地存储。
Moondream MCP Server是一个基于Moondream视觉模型的图像分析服务,提供图像描述生成、物体检测和视觉问答功能,可轻松集成到Claude和Cline等AI助手中。
Outsource MCP是一个支持多AI模型提供商的统一接口服务,通过MCP协议让AI应用能便捷调用不同厂商的文本和图像生成能力。
Image Generation MCP Server是一个为Claude Desktop提供图像生成功能的MCP服务器,使用Replicate Flux模型,支持通过文本提示生成图像,并可通过Smithery或npm安装配置。
Luma API MCP是一个提供图像和视频生成服务的项目,用户可以通过API密钥接入,支持多种比例、模型和分辨率选项,并能通过参考图像或视频关键帧控制生成效果。
一个用于对接Replicate API的FastMCP服务器实现,提供标准化接口访问多种AI模型,目前支持图像生成功能,处于早期开发阶段。
一个基于OpenSCAD的MCP服务器,通过AI生成多视角图像并重建为参数化3D模型,支持远程CUDA加速处理。
一个为Windsurf提供图像生成和网页抓取功能的MCP服务器,支持Flux Pro模型生成图像和ScrapeGraph API进行网页内容提取。
Banana Image MCP是一个基于MCP协议的AI图像生成服务器,让Claude等助手能够使用Google Gemini模型生成高质量图像,支持4K分辨率和智能模型选择。