WWDC26全球开发者大会将于6月8日开幕,苹果将发布iOS27系统,核心亮点是集成三项AI照片编辑功能。新照片应用加入“Apple Intelligence Tools”菜单,其中“Extend”功能利用生成式AI自动填充照片边缘背景,数秒内重构图像,提升影像编辑效率。
淘宝天猫推出全新售后AI假图识别模型,专门识别用户利用AI技术伪造破损污渍图片、恶意申请退款的行为。该功能旨在维护商家合法权益,减少因虚假售后凭证造成的损失。随着电商发展,AI生成图像的欺诈现象增多,此模型将有效遏制此类问题。
谷歌AI助手Gemini新增Personal Intelligence功能,可连接用户Google Photos相册,自动调用私人照片生成个性化图像,无需手动上传。配合Nano Banana工具,用户可便捷创建定制化内容,如生成与家人的动画风格合影。更新旨在提升AI回应的个性化和便捷性。
谷歌AI助手Gemini推出交互式图像生成功能,基于Nano Banana技术,可将复杂主题转化为动态交互模拟。用户通过“向我展示”等指令触发可视化图表按钮,系统即生成可操作数字模拟程序,信息承载力强,例如能演示月球相关动态过程。
在线图像生成与编辑器,支持人脸控制、调色板提取等功能。
免费AI图像生成器,多模型智能路由,功能丰富,效果媲美Midjourney。
Flyne AI可免费进行高级图像与视频生成,功能丰富
AI 视频生成器,支持文本到视频、图像到视频等功能。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
Tongyi-MAI
Z-Image是一款功能强大且高效的图像生成模型,拥有60亿参数。它能有效解决图像生成领域在效率、质量和功能多样性方面的问题,为用户提供高质量的图像生成和编辑服务。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
jude1903
AJWWan22-lora 是一个基于文本生成视频的LoRA模型,通过AI Toolkit进行训练,专门用于图像生成任务。该模型需要特定的触发词来激活生成功能。
fraemwerk
这是一个基于Wan2.1-T2V-14B模型的文本到视频LoRA适配器,使用AI Toolkit训练,专注于图像生成任务,需要特定触发词'fraemwerk'来激活生成功能。
Mungert
Qwen2.5-Omni-7B是一款功能强大的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式生成文本和自然语音响应。
Changgil
Gemma 3 27B的纯文本适配版本,移除了图像处理功能,专注于文本生成任务
ostris
开源80亿参数文本生成图像扩散模型,内置通用控制和图像修复功能
Keltezaa
这是一个基于LoRA技术的文本生成图像模型,专门用于生成Amber Heard的逼真高质量照片。模型基于FLUX.1-dev架构,通过特定触发词'ohwx'来激活图像生成功能。
calcuis
这是一个基于SD1的迷你文本生成图像模型,体积小巧且运行速度快,适合节点功能测试。
EvanZhouDev
开放表情符号是一个开源项目,旨在复刻苹果的Genmoji功能,使用开源技术生成表情符号风格的图像。
gpustack
基于Stable Diffusion XL的文本生成图像模型,具备图像修复功能,能够根据文本输入和掩码修改图像内容。
a-r-r-o-w
基于Diffusers格式的LTX-Video模型,支持文本生成视频和图像生成视频功能
jbilcke-hf
专为Hugging Face推理端点优化的视频生成模型分支版本,支持文本生成视频和图像生成视频功能
safe-models
SUM 是一个用于掩码生成的模型,具体功能未明确说明,可能涉及图像或文本的掩码生成任务。
这是Stable Diffusion 3.5 Large的GGUF量化版本,集成了ControlNets功能,能够实现强大的文本到图像生成,支持边缘检测、深度和模糊等多种控制方式。
NCSOFT
VARCO-VISION-14B是一款强大的英韩视觉语言模型,支持图像和文本输入,生成文本输出,具备定位、指代和OCR功能。
Eugeoter
基于稳定扩散XL(Stable Diffusion XL)的文本到图像生成模型,支持控制网络功能。
基于稳定扩散XL版的文本生成图像模型,支持控制网络功能
Iamsylvain
Teenz是一个基于FLUX.1-dev模型训练的LoRA项目,通过特定触发词实现文本到图像的生成功能,主要面向非商业用途的图像创作。
AWS MCP Servers是一套基于Model Context Protocol的专用服务器,提供多种AWS相关功能,包括文档检索、知识库查询、CDK最佳实践、成本分析、图像生成等,旨在通过标准化协议增强AI应用与AWS服务的集成。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景去除和自动缩放功能。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景移除和自动缩放功能。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
基于Google Gemini 2.5 Flash API的MCP图像生成与编辑服务器,支持文本生成图像、图像编辑、迭代创作和风格迁移功能
一个基于OpenAI DALL-E API的MCP服务器,提供图像生成、编辑和变体功能,支持与Cline集成。
MiniMax-MCP是一个多功能服务器项目,提供文本转语音、视频生成和图像生成等API服务,支持开发者集成高级多媒体功能。
Azure OpenAI DALL-E 3集成服务器,通过MCP协议提供图像生成与下载功能
Recraft AI MCP服务器是一个集成MCP客户端与Recraft AI图像处理功能的服务器,支持生成和编辑光栅/矢量图像、创建自定义风格、图像矢量化、背景处理及图像放大等功能。
一个基于Amazon Bedrock的Nova Canvas模型的MCP服务器,支持多种图像生成与编辑功能。
这是一个基于Google Gemini API的MCP服务器,提供文本对话、图像生成和视频生成功能,可作为Codex MCP的替代方案。
Grok MCP插件是一个为Cline提供Grok AI强大功能的接口插件,支持文本生成、图像分析和函数调用。
Moondream MCP Server是一个基于Moondream视觉模型的图像分析服务,提供图像描述生成、物体检测和视觉问答功能,可轻松集成到Claude和Cline等AI助手中。
一个基于Google Gemini模型的MCP服务器,提供文本生成图像和图像转换功能,支持高质量图像生成、智能文件名生成和本地存储。
一个为Windsurf提供图像生成和网页抓取功能的MCP服务器,支持Flux Pro模型生成图像和ScrapeGraph API进行网页内容提取。
DALL-E MCP服务器是一个通过OpenAI的DALL-E API生成、编辑和创建图像变体的服务,支持与Cline集成,提供图像生成和处理功能。
Grok MCP插件是一个为Cline提供Grok AI强大功能的接口,支持文本生成、图像分析和函数调用。
Image Generation MCP Server是一个为Claude Desktop提供图像生成功能的MCP服务器,使用Replicate Flux模型,支持通过文本提示生成图像,并可通过Smithery或npm安装配置。
MCP图像生成器是一个基于Together AI或Replicate的图像生成服务,支持通过SSE端点或本地运行,提供根据文本提示生成图像的功能。