阿里通义实验室推出开源工具Qwen-Image-i2L,可将单张图片快速转化为可微调的LoRA模型,大幅降低个性化风格迁移门槛。用户只需上传一张图片,无需大量数据或昂贵算力,即可生成轻量级LoRA模块,并集成到其他生成模型中,实现高效“单图风格迁移”。该技术已在AI社区引发广泛关注。
【AI日报】栏目每日提供AI领域热点内容,聚焦技术趋势与创新应用。谷歌DeepMind推出Gemini 2.5 Flash图像编辑模型,具备精准编辑和创意实现能力,支持角色一致性、局部文字编辑、风格迁移和现实推等功能。
Ideogram推出"角色"新功能,无需训练即可创建风格统一的角色形象。该功能支持角色精准定位、风格迁移和细节定制(如发型、服饰等),设置可保存复用。适用于广告、电商、视频封面、漫画及游戏开发等多个领域。
Runway发布革命性视频编辑模型Aleph,通过自然语言指令实现五大核心功能:内容增删、环境变换、风格迁移、镜头运动迁移及绿幕抠像。该模型突破性地结合上下文理解与视觉生成技术,支持从单一视频生成多角度内容,显著降低专业视频制作门槛。Aleph的推出将加速AI在影视、广告等领域的应用普及,未来还将优化性能并拓展实时协作等新功能,为创作者提供更强大的工具支持。
一款将图像转化为 LoRA 模型的先进工具。
Runway Gen 4.5 AI可生成1080p电影级视频,具备导演模式和物理模拟
GPT Image 2是AI图像生成与编辑器,可秒速生成高分辨率图像。
强大的AI图像编辑平台,用GPT - Image - 2技术生成、编辑和增强专业图像。
Alibaba
-
Input tokens/M
Output tokens/M
Context Length
Tencent
$2
Huawei
Deepseek
8
dx8152
这是一个基于Qwen-Image-Edit-2509的LoRA微调模型,专门用于解决图像二次光照处理问题。它能够移除原始图像的光照效果,并根据参考图像的光照和色调,为目标图像重新生成逼真的照明和阴影,实现图像风格的迁移与融合。
XiaomiMiMo
MiMo Audio是一款基于大规模预训练的音频语言模型,在语音智能和音频理解基准测试中取得了开源模型的SOTA性能。该模型展现出强大的少样本学习能力,能够泛化到训练数据中未包含的任务,支持语音转换、风格迁移和语音编辑等多种音频任务。
Takaharadesu
支持《BanG Dream!》角色对话风格迁移翻译的模型
InstantX
CSGO是一个用于文本生成图像的PyTorch实现,支持图像驱动的风格迁移、文本驱动的风格化合成和文本编辑驱动的风格化合成。
stylellm
基于Yi-6b微调的文本风格迁移模型,能够将输入文本改写为《三国演义》的文学风格
keras-io
基于VGG19的图像风格迁移模型,可将艺术风格与内容图像融合生成新图像
基于Google Gemini 2.5 Flash API的MCP图像生成与编辑服务器,支持文本生成图像、图像编辑、迭代创作和风格迁移功能