北京智源人工智能研究院发布新一代多模态大模型Emu3.5,实现“世界级统一建模”,突破传统AI在物理理解和因果推理上的短板,让AI从单纯生成图像、文本进化到真正理解物理世界。
亚马逊云科技在2025年re:Invent大会上推出Nova2模型系列,包括四款新模型,在推理、多模态、对话AI、代码生成和Agent任务方面具备领先性价比。其中,Nova2Lite专为日常负载设计,支持文本、图像和视频输入并生成文本输出,是一款快速经济的推理模型。
可灵AI公司宣布其O1视频大模型已全量上线,采用统一多模态架构,支持文字、图像等多种输入方式,实现一句话生成视频。
AI设计平台Lovart推出Touch Edit触控功能,公测48小时吸引超10万创作者。该功能通过快捷键自动识别并锁定发丝、服饰等元素,用户只需用自然语言描述修改需求,即可在4K分辨率下即时完成融合,无需手动操作。同时支持多图上传,系统自动编辑混搭。
Somny是一款AI角色和图像生成器,能根据照片生成精美图像。
GPTunneL提供多模型AI服务,可生成文本、图像等,支持多方式支付。
免费在线高级AI图像生成与编辑器,快速生成逼真图像并编辑
基于Gemini 3 Pro图像预览技术的专业AI图像生成器,免费上手
openai
-
Input tokens/M
Output tokens/M
128k
Context Length
reka-ai
google
32.8k
$1.8
$14.4
400k
dx8152
文心图像融合Lora模型是一个专门用于图像融合和编辑的AI模型,能够纠正产品透视角度、调整光影效果,并使产品自然地融入背景环境,实现高质量的图像合成效果。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
deepseek-ai
DeepSeek-OCR是DeepSeek AI开发的一款先进的光学字符识别模型,专注于探索视觉文本压缩的边界,能够高效地从图像中提取和转换文本内容。
lichorosario
这是一个基于Qwen-Image模型训练的LoRA(Low-Rank Adaptation)模型,专门用于文本到图像的生成任务。该项目使用AI Toolkit训练,能够将文本描述转化为高质量的图像,支持在多种图像生成工具中使用。
Zlikwid
这是一个基于Qwen/Qwen-Image-Edit-2509基础模型训练的LoRA图像生成模型,专门用于图像到图像的转换任务,使用AI Toolkit by Ostris进行训练。
expert78
kontext-dusk-3-lora是一个基于FLUX.1-Kontext-dev基础模型训练的LoRA图像生成模型,专门用于生成黄昏蓝调时刻风格的图像。该模型通过特定触发词触发,支持多种主流AI图像生成工具使用。
zambawi
joywan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频和图像生成任务,需要配合基础模型Wan-AI/Wan2.1-T2V-14B-Diffusers使用。
mrgant
lans_v1 - lora是基于Qwen/Qwen-Image模型使用AI Toolkit by Ostris训练的文本到图像转换模型,采用LoRA技术进行优化,具备良好的图像生成能力。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
BarleyFarmer
pejawan22-lora是一个基于AI技术训练的LoRA模型,专门用于特定图像的生成,可与多种AI工具集成使用,通过触发词'peja'来生成图像。
natalie_wan_2.2-lora 是基于 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于文本到视频转换任务,能够有效提升图像生成的质量和效果。
MartinSSSTSGH
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的图像生成任务,使用触发词'Lilly'来生成特定风格的图像内容。
Mark111111111
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换,为图像生成带来新的体验。该模型需要配合基础模型Wan2.2-T2V-A14B使用。
Ashmotv
animat3d_style_wan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频生成,可为图像生成带来独特的3D动画风格效果。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种主流AI平台使用。
Isshywondertwin
Alexis_Noir_Wan2.2-lora 是使用 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于图像到视频转换任务。该模型基于 Wan2.2-I2V-A14B 基础模型,支持高分辨率图像生成。
cyburn
qwen_edit_photo_restore_v1-lora是一个基于Qwen-Image-Edit模型训练的LoRA适配器,专门用于图像编辑和修复任务。该模型使用AI Toolkit by Ostris进行训练,支持多种主流AI平台,提供高质量的图像处理能力。
andrewwe
my_qwennud-lora是基于Qwen-Image-Edit-2509使用特定工具训练的LoRA模型,专门用于图像生成和编辑任务,采用AI Toolkit by Ostris训练而成,可与多种主流AI工具配合使用。
bigdoinks420518
这是一个使用AI Toolkit by Ostris训练的LoRA模型,基于Wan-AI/Wan2.1-T2V-14B-Diffusers基础模型,主要用于文本到视频生成,在图像生成领域有独特应用价值。
EightiesPower
bl00dsqibWan22-lora是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于图像到视频处理任务,为图像和视频处理领域提供了新的解决方案。
deadpoolx22
这是一个基于AI技术的文本到视频LoRA模型,专门针对alita角色进行优化训练,可用于图像生成等场景,为相关领域的应用提供了便利。
AWS MCP Servers是一套基于Model Context Protocol的专用服务器,提供多种AWS相关功能,包括文档检索、知识库查询、CDK最佳实践、成本分析、图像生成等,旨在通过标准化协议增强AI应用与AWS服务的集成。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景去除和自动缩放功能。
基于即梦AI的图像生成服务,专为Cursor IDE设计,实现文本描述到图像的生成与保存。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
adb-mcp是一个概念验证项目,旨在通过MCP协议为LLM提供接口,创建控制Adobe工具(如Photoshop和Premiere)的AI代理。该项目包含MCP服务器、Node命令代理服务器和Adobe应用插件,支持自然语言指令操作Adobe软件,适用于图像和视频编辑自动化。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景移除和自动缩放功能。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
Maccy剪贴板MCP服务器是一个将Maccy剪贴板历史暴露给Claude等AI助手的服务工具,支持搜索、查看、管理剪贴板内容,包含图像支持与数据统计功能,但需注意敏感数据泄露风险。
MCP Server Notifier 是一个轻量级通知服务,与模型上下文协议(MCP)集成,可在AI代理完成任务时发送Webhook通知。支持多种Webhook提供商(如Discord、Slack、Teams等),提供图像支持、多项目管理、自定义消息等功能,易于与AI工具(如Cursor)集成。
Jina AI MCP服务器是一个提供语义搜索、图像搜索和跨模态搜索功能的模型上下文协议服务,支持与Jina AI神经搜索能力无缝集成。
一个基于Python的轻量级MCP服务器,通过WebSocket与本地ComfyUI交互,实现AI代理程序化生成图像。
一个基于xAI Grok API的MCP服务器,提供AI图像分析功能,支持URL和本地文件的图像描述、元数据提取和OCR文字识别
一个专注于探索和应用生成式AI(GenAI)的仓库,旨在通过实际案例和资源分享,帮助用户学习和实验GenAI在日常任务中的应用,包括写作、编程、图像生成等。
MCP Kling是首个且唯一完整的Kling AI MCP服务器,提供13种创意工具,支持视频生成、图像处理、唇形同步及虚拟试衣等功能,实现与Claude的无缝集成,适用于内容创作者和开发者。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
Vulcan File Ops是一个基于Model Context Protocol(MCP)的高性能文件操作服务器,可将桌面AI助手(如Claude Desktop、ChatGPT Desktop等)转变为强大的开发伙伴。它提供安全的文件读写、批量操作、文档处理、图像分析和Shell命令执行功能,具有企业级安全控制、动态目录注册和智能工具过滤特性,让用户完全控制本地文件系统访问。
LetzAI MCP是一个基于Node.js的图像生成工具,通过Claude桌面应用集成LetzAI API实现AI图像生成与处理。
一个基于LangGraph的代理工具,帮助用户通过AI生成图像并注册为Story区块链上的IP资产,包括图像生成、IPFS上传、元数据创建、许可条款协商和区块链注册全流程。