OpenAI推出ChatGPT“年度回顾”功能,为用户生成个性化AI交互档案。报告统计消息总数、分析聊天习惯,并根据高频主题生成像素风格定制图像。
美团LongCat团队开源视频生成模型LongCat-Video-Avatar,推动虚拟人技术发展。该模型在长视频生成领域表现突出,基于LongCat-Video升级,支持音频文本转视频、音频文本图像转视频及视频续写等多任务功能,受到开发者广泛关注。
苹果推出多模态AI模型UniGen1.5,整合图像理解、生成与编辑三大功能于统一框架,显著提升效率。该模型利用图像理解能力优化生成效果,实现技术突破。
火山引擎发布多项AI更新,豆包视觉模型升级,Seedream4.5增强图像创作功能,Seedance1.5Pro推出视频生成模型,加速企业AI普惠。
Nano Banana可实现文本到图像生成与AI图像编辑,功能强大且操作便捷。
免费AI图像编辑器和生成器,由Nano Banana AI驱动,功能强大无限制。
全球可访问的无水印AI视频生成平台,支持文本、图像转视频等功能。
基于 Next.js 的多模型 AI 绘画应用,支持文生图和图生图功能。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
Tongyi-MAI
Z-Image是一款功能强大且高效的图像生成模型,拥有60亿参数。它能有效解决图像生成领域在效率、质量和功能多样性方面的问题,为用户提供高质量的图像生成和编辑服务。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
jude1903
AJWWan22-lora 是一个基于文本生成视频的LoRA模型,通过AI Toolkit进行训练,专门用于图像生成任务。该模型需要特定的触发词来激活生成功能。
fraemwerk
这是一个基于Wan2.1-T2V-14B模型的文本到视频LoRA适配器,使用AI Toolkit训练,专注于图像生成任务,需要特定触发词'fraemwerk'来激活生成功能。
Mungert
Qwen2.5-Omni-7B是一款功能强大的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式生成文本和自然语音响应。
Changgil
Gemma 3 27B的纯文本适配版本,移除了图像处理功能,专注于文本生成任务
ostris
开源80亿参数文本生成图像扩散模型,内置通用控制和图像修复功能
Keltezaa
这是一个基于LoRA技术的文本生成图像模型,专门用于生成Amber Heard的逼真高质量照片。模型基于FLUX.1-dev架构,通过特定触发词'ohwx'来激活图像生成功能。
calcuis
这是一个基于SD1的迷你文本生成图像模型,体积小巧且运行速度快,适合节点功能测试。
EvanZhouDev
开放表情符号是一个开源项目,旨在复刻苹果的Genmoji功能,使用开源技术生成表情符号风格的图像。
gpustack
基于Stable Diffusion XL的文本生成图像模型,具备图像修复功能,能够根据文本输入和掩码修改图像内容。
a-r-r-o-w
基于Diffusers格式的LTX-Video模型,支持文本生成视频和图像生成视频功能
jbilcke-hf
专为Hugging Face推理端点优化的视频生成模型分支版本,支持文本生成视频和图像生成视频功能
safe-models
SUM 是一个用于掩码生成的模型,具体功能未明确说明,可能涉及图像或文本的掩码生成任务。
这是Stable Diffusion 3.5 Large的GGUF量化版本,集成了ControlNets功能,能够实现强大的文本到图像生成,支持边缘检测、深度和模糊等多种控制方式。
NCSOFT
VARCO-VISION-14B是一款强大的英韩视觉语言模型,支持图像和文本输入,生成文本输出,具备定位、指代和OCR功能。
Eugeoter
基于稳定扩散XL(Stable Diffusion XL)的文本到图像生成模型,支持控制网络功能。
基于稳定扩散XL版的文本生成图像模型,支持控制网络功能
Iamsylvain
Teenz是一个基于FLUX.1-dev模型训练的LoRA项目,通过特定触发词实现文本到图像的生成功能,主要面向非商业用途的图像创作。
AWS MCP Servers是一套基于Model Context Protocol的专用服务器,提供多种AWS相关功能,包括文档检索、知识库查询、CDK最佳实践、成本分析、图像生成等,旨在通过标准化协议增强AI应用与AWS服务的集成。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景去除和自动缩放功能。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景移除和自动缩放功能。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
Azure OpenAI DALL-E 3集成服务器,通过MCP协议提供图像生成与下载功能
MiniMax-MCP是一个多功能服务器项目,提供文本转语音、视频生成和图像生成等API服务,支持开发者集成高级多媒体功能。
一个基于OpenAI DALL-E API的MCP服务器,提供图像生成、编辑和变体功能,支持与Cline集成。
基于Google Gemini 2.5 Flash API的MCP图像生成与编辑服务器,支持文本生成图像、图像编辑、迭代创作和风格迁移功能
Recraft AI MCP服务器是一个集成MCP客户端与Recraft AI图像处理功能的服务器,支持生成和编辑光栅/矢量图像、创建自定义风格、图像矢量化、背景处理及图像放大等功能。
一个基于Amazon Bedrock的Nova Canvas模型的MCP服务器,支持多种图像生成与编辑功能。
一个基于Google Gemini模型的MCP服务器,提供文本生成图像和图像转换功能,支持高质量图像生成、智能文件名生成和本地存储。
Grok MCP插件是一个为Cline提供Grok AI强大功能的接口插件,支持文本生成、图像分析和函数调用。
Moondream MCP Server是一个基于Moondream视觉模型的图像分析服务,提供图像描述生成、物体检测和视觉问答功能,可轻松集成到Claude和Cline等AI助手中。
一个用于对接Replicate API的FastMCP服务器实现,提供标准化接口访问多种AI模型,目前支持图像生成功能,处于早期开发阶段。
DALL-E MCP服务器是一个通过OpenAI的DALL-E API生成、编辑和创建图像变体的服务,支持与Cline集成,提供图像生成和处理功能。
Draw Things API与Cursor的集成工具,通过MCP协议实现AI图像生成功能
MCP图像生成器是一个基于Together AI或Replicate的图像生成服务,支持通过SSE端点或本地运行,提供根据文本提示生成图像的功能。
Grok MCP插件是一个为Cline提供Grok AI强大功能的接口,支持文本生成、图像分析和函数调用。
Vidu MCP Server是一个基于Model Context Protocol的服务器,用于与Vidu视频生成API交互,提供图像转视频、生成状态检查和图像上传功能。