亚马逊云科技在2025年re:Invent大会上推出Nova2模型系列,包括四款新模型,在推理、多模态、对话AI、代码生成和Agent任务方面具备领先性价比。其中,Nova2Lite专为日常负载设计,支持文本、图像和视频输入并生成文本输出,是一款快速经济的推理模型。
可灵AI公司宣布其O1视频大模型已全量上线,采用统一多模态架构,支持文字、图像等多种输入方式,实现一句话生成视频。
英伟达在NeurIPS大会上推出新AI基础设施和模型,推动物理AI发展,助力机器人和自动驾驶车辆感知真实世界。重点发布Alpamayo-R1,首个专为自动驾驶设计的开放推理视觉语言模型,能处理文本与图像,提升车辆环境感知能力。
可灵AI公司宣布,其O1视频大模型已全量开放。该模型采用多模态视觉语言统一架构,支持文字、图像、视频融合输入,并引入思维链推理,号称全球首个统一多模态视频大模型。它可一次性完成文生视频、图生视频、局部编辑及镜头延展等任务,无需分步操作。
GPTunneL提供多模型AI服务,可生成文本、图像等,支持多方式支付。
先进AI技术,可将文字和图像瞬间转化为3D模型,无需3D建模经验。
Z-Image Turbo是高效AI图像生成模型,秒速生成高质量图像。
免费AI生成器中心,50+模型在线创作图像、视频和音乐
openai
-
Input tokens/M
Output tokens/M
128k
Context Length
reka-ai
$1.8
$14.4
400k
dx8152
文心图像融合Lora模型是一个专门用于图像融合和编辑的AI模型,能够纠正产品透视角度、调整光影效果,并使产品自然地融入背景环境,实现高质量的图像合成效果。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
deepseek-ai
DeepSeek-OCR是DeepSeek AI开发的一款先进的光学字符识别模型,专注于探索视觉文本压缩的边界,能够高效地从图像中提取和转换文本内容。
lichorosario
这是一个基于Qwen-Image模型训练的LoRA(Low-Rank Adaptation)模型,专门用于文本到图像的生成任务。该项目使用AI Toolkit训练,能够将文本描述转化为高质量的图像,支持在多种图像生成工具中使用。
Zlikwid
这是一个基于Qwen/Qwen-Image-Edit-2509基础模型训练的LoRA图像生成模型,专门用于图像到图像的转换任务,使用AI Toolkit by Ostris进行训练。
expert78
kontext-dusk-3-lora是一个基于FLUX.1-Kontext-dev基础模型训练的LoRA图像生成模型,专门用于生成黄昏蓝调时刻风格的图像。该模型通过特定触发词触发,支持多种主流AI图像生成工具使用。
zambawi
joywan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频和图像生成任务,需要配合基础模型Wan-AI/Wan2.1-T2V-14B-Diffusers使用。
mrgant
lans_v1 - lora是基于Qwen/Qwen-Image模型使用AI Toolkit by Ostris训练的文本到图像转换模型,采用LoRA技术进行优化,具备良好的图像生成能力。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
BarleyFarmer
pejawan22-lora是一个基于AI技术训练的LoRA模型,专门用于特定图像的生成,可与多种AI工具集成使用,通过触发词'peja'来生成图像。
natalie_wan_2.2-lora 是基于 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于文本到视频转换任务,能够有效提升图像生成的质量和效果。
MartinSSSTSGH
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的图像生成任务,使用触发词'Lilly'来生成特定风格的图像内容。
Mark111111111
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换,为图像生成带来新的体验。该模型需要配合基础模型Wan2.2-T2V-A14B使用。
Ashmotv
animat3d_style_wan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频生成,可为图像生成带来独特的3D动画风格效果。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种主流AI平台使用。
Isshywondertwin
Alexis_Noir_Wan2.2-lora 是使用 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于图像到视频转换任务。该模型基于 Wan2.2-I2V-A14B 基础模型,支持高分辨率图像生成。
cyburn
qwen_edit_photo_restore_v1-lora是一个基于Qwen-Image-Edit模型训练的LoRA适配器,专门用于图像编辑和修复任务。该模型使用AI Toolkit by Ostris进行训练,支持多种主流AI平台,提供高质量的图像处理能力。
andrewwe
my_qwennud-lora是基于Qwen-Image-Edit-2509使用特定工具训练的LoRA模型,专门用于图像生成和编辑任务,采用AI Toolkit by Ostris训练而成,可与多种主流AI工具配合使用。
bigdoinks420518
这是一个使用AI Toolkit by Ostris训练的LoRA模型,基于Wan-AI/Wan2.1-T2V-14B-Diffusers基础模型,主要用于文本到视频生成,在图像生成领域有独特应用价值。
EightiesPower
bl00dsqibWan22-lora是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于图像到视频处理任务,为图像和视频处理领域提供了新的解决方案。
deadpoolx22
这是一个基于AI技术的文本到视频LoRA模型,专门针对alita角色进行优化训练,可用于图像生成等场景,为相关领域的应用提供了便利。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
MCP Server Notifier 是一个轻量级通知服务,与模型上下文协议(MCP)集成,可在AI代理完成任务时发送Webhook通知。支持多种Webhook提供商(如Discord、Slack、Teams等),提供图像支持、多项目管理、自定义消息等功能,易于与AI工具(如Cursor)集成。
Jina AI MCP服务器是一个提供语义搜索、图像搜索和跨模态搜索功能的模型上下文协议服务,支持与Jina AI神经搜索能力无缝集成。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
DiffuGen是一个先进的本地图像生成工具,集成了MCP协议,支持多种AI模型(包括Flux和Stable Diffusion系列),可直接在开发环境中生成高质量图像。它提供了灵活的配置选项、多GPU支持,并可通过MCP协议与多种IDE集成,同时提供OpenAPI接口供外部调用。
Outsource MCP是一个支持多AI模型提供商的统一接口服务,通过MCP协议让AI应用能便捷调用不同厂商的文本和图像生成能力。
Moondream MCP Server是一个基于Moondream视觉模型的图像分析服务,提供图像描述生成、物体检测和视觉问答功能,可轻松集成到Claude和Cline等AI助手中。
一个用于对接Replicate API的FastMCP服务器实现,提供标准化接口访问多种AI模型,目前支持图像生成功能,处于早期开发阶段。
一个基于OpenSCAD的MCP服务器,通过AI生成多视角图像并重建为参数化3D模型,支持远程CUDA加速处理。
一个基于Replicate API的FastMCP服务器实现,专注于提供资源化的AI模型推理访问,特别擅长图像生成功能。
DiffuGen是一个先进的本地图像生成工具,集成了MCP协议,支持多种AI模型,可在开发环境中无缝生成高质量图像。
Gemini MCP服务器是一个为Claude桌面应用设计的中间件,通过Google Gemini AI模型实现图像生成功能。该项目提供便捷的安装配置向导,支持Docker容器化部署,并允许用户自定义生成参数。
MCP Flux Studio是一个强大的模型上下文协议服务器,将Flux的高级图像生成功能集成到AI编程助手中,支持Cursor和Windsurf IDE。
Replicate Flux MCP是一个基于Model Context Protocol(MCP)的高级服务器,通过Replicate API利用Flux Schnell和Recraft V3 SVG模型,为AI助手提供高质量的图像和矢量图形生成能力。
Jina AI MCP服务器是一个提供语义搜索、图像搜索和跨模态搜索功能的模型上下文协议服务器,支持与Jina AI神经搜索能力无缝集成。
GIMP-MCP项目旨在通过模型上下文协议(MCP)将GIMP与AI模型集成,提供智能图像编辑功能,如背景移除、图像修复等。
MCP OpenVision是一个基于OpenRouter视觉模型的图像分析服务器,为AI助手提供图像分析能力。