OpenAI低调发布GPT-5.2,通过实测视频展示其强大能力:AI在180秒内零错误生成50页季度汇报,包括模板、数据、配图和备注。CEO承诺用户每周可节省至少10小时。技术上首次融合“混合专家”与“动态缓存”于同一权重,输入时动态分配计算资源,显著提升效率与准确性。
谷歌AI助手NotebookLM推出"Slide Decks"功能,可将用户上传资料自动生成专业演示文稿,效果优于Gemini App。该功能被赞为PPT和Canva的潜在替代者,引发行业关注。
谷歌视频编辑平台Vids向所有用户免费开放AI功能,包括语音配音、自动去除冗余口语和图像编辑等。用户只需上传视频,系统即可自动识别并精简冗余内容。
Adobe发布专业级AI图像生成模型Firefly Image5,实现从“够用”到专业级的质变。新功能包括原生400万像素输出、分层提示编辑、自定义艺术风格模型及AI语音配乐生成,打通图像、视频、音频的AI创作闭环,重新定义创意工作流。
Aivvid AI是一体化AI创意平台,可生成视频、图像、音乐和配音。
一个基于FLUX.1-dev模型的图像生成适配器
自动生成社交媒体图片配文的AI应用。
Google
$0.7
Input tokens/M
$2.8
Output tokens/M
1k
Context Length
Anthropic
$21
$105
200
Alibaba
-
$1
$10
256
$2
$20
$3.9
$15.2
64
Bytedance
$0.8
$0.15
$1.5
128
Baidu
32
zambawi
joywan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频和图像生成任务,需要配合基础模型Wan-AI/Wan2.1-T2V-14B-Diffusers使用。
Mark111111111
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换,为图像生成带来新的体验。该模型需要配合基础模型Wan2.2-T2V-A14B使用。
andrewwe
my_qwennud-lora是基于Qwen-Image-Edit-2509使用特定工具训练的LoRA模型,专门用于图像生成和编辑任务,采用AI Toolkit by Ostris训练而成,可与多种主流AI工具配合使用。
lichorosario
piccoli_no_style-lora 是一个基于图像到视频技术的LoRA模型,使用AI Toolkit进行训练,主要用于图像生成任务,可与多种主流AI工具配合使用。
Zedge
Stability AI开发的文本生成图像扩散模型,采用双文本编码器和潜在扩散技术,支持独立使用或配合优化模块提升效果
gpustack
SDXL 1.0-refiner是Stability AI开发的潜在扩散模型,专注于图像精炼阶段,可与基础模型配合生成高质量图像。
stabilityai
SD-XL 0.9-refiner是Stability AI开发的潜在扩散模型,专为高质量图像优化设计,需与基础模型配合使用
DiffuGen是一个先进的本地图像生成工具,集成了MCP协议,支持多种AI模型(包括Flux和Stable Diffusion系列),可直接在开发环境中生成高质量图像。它提供了灵活的配置选项、多GPU支持,并可通过MCP协议与多种IDE集成,同时提供OpenAPI接口供外部调用。
MCP Mermaid是一个通过AI动态生成Mermaid图表和图形的工具,支持多种导出格式和主题配置,适用于多种开发环境和平台。
一个基于Google Gemini图像生成模型的MCP服务器,允许AI代理通过文本提示生成、编辑和描述图像,支持多种模型和配置选项。
Gemini MCP服务器是一个为Claude桌面应用设计的中间件,通过Google Gemini AI模型实现图像生成功能。该项目提供便捷的安装配置向导,支持Docker容器化部署,并允许用户自定义生成参数。
一个基于Amazon Bedrock Nova Canvas模型的MCP服务器,提供高质量的AI图像生成服务,支持文本描述生成图像、负面提示优化、尺寸配置和种子控制等功能。
一个基于ECharts的MCP服务,可通过配置生成高质量的图表图像,支持多种图表类型和自定义尺寸,便于与AI助手集成。
Graphiti MCP Server是一个基于官方getzep/graphiti的多项目知识图谱服务器扩展,支持多服务器单数据库配置,提供开发者友好的CLI工具,能够为每个项目构建临时知识图谱,供AI代理通过模型上下文协议查询。