苹果研究人员近日提出了俄罗斯套娃式扩散模型MDM,可以端到端生成1024x1024分辨率的高质量图像。MDM的创新在于引入了多分辨率扩散过程,通过嵌套UNet架构实现了多分辨率损失,大大提高了高分辨率输入去噪的收敛速度。另外,MDM还使用了渐进式训练,从低分辨率开始训练,逐步添加高分辨率输入和输出,极大地提高了训练效率。尽管训练数据集较小,但MDM展现出了生成高质量高分辨率图像和视频的强大能力。相比其他级联或潜在方法,MDM训练和推理更简单高效。
相关AI新闻推荐

Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活
在图像生成领域,Midjourney 近期推出了一项名为 “Omni-Reference”(全向参考)的新功能,为用户带来了更大的创作自由。这一全新图像引用系统不仅是 V6版本中 “角色参考” 功能的升级版,更是赋予用户在创作过程中对图像元素的精准控制。核心功能:全向参考与多元素支持Omni-Reference通过先进的图像参考系统,为用户提供了前所未有的创作控制力。AIbase梳理了其主要亮点: 精准元素指定:用户可上传参考图像(如人物、动物、武器或车辆),通过提示明确要求“将此元素放入图像”,生成

F-Lite登陆Hugging Face,10亿参数扩散变换器革新文本到图像生成
Hugging Face平台正式上线F-Lite,一款拥有10亿参数的文本到图像扩散变换器(Diffusion Transformer)。据AIbase了解,F-Lite以其高效的生成能力和轻量化设计,迅速成为AI图像生成领域的焦点,社交平台上的讨论凸显其对开发者与创作者的吸引力。相关细节已通过Hugging Face官网(huggingface.co)与社区公开。核心功能:高效生成与轻量化架构F-Lite基于扩散变换器架构,结合先进的生成技术,为文本到图像任务提供了高性能解决方案。AIbase梳理了其主要亮点: 10亿参数规模:相较于FLUX.1的120亿参数,F-Lite以更轻

Perplexity AI登陆WhatsApp,集成原生图像生成开启智能交互新篇章
Perplexity AI宣布正式集成WhatsApp平台,为用户带来实时搜索、来源引证与原生图像生成等强大功能。据AIbase了解,这一更新允许用户在WhatsApp聊天中直接调用AI助手,获取精准答案并生成定制化图像,无需离开对话界面。社交平台上的热烈反响凸显了其便捷性与创新性,相关细节已通过Perplexity官网(perplexity.ai)与社交媒体公开。核心功能:无缝搜索与图像生成Perplexity AI在WhatsApp的集成以其多功能性与用户友好性为核心,重新定义了即时通讯中的AI体验。AIbase梳理了其主要亮点: 实时搜索与引证

Adobe 重磅升级 Firefly AI 平台,打造图像、视频、音频全能创作引擎
Adobe 最近宣布对其 Firefly AI 平台进行重大升级,这一变化使其从一个独立的图像生成器转变为一个综合性数字内容创作系统。自两年前推出以来,Firefly 已被全球用户用来创建超过220亿个资产,这一最新版本旨在在这一成功基础上,提供更为多样化的创作工具。新版本的 Firefly 现在支持生成图像、视频、音频和矢量图形。针对图像生成,Adobe 推出了 Firefly Image Model4,分为标准版和超版。Adobe 表示,标准版可以满足90% 的创作需求,而超版则更适合处理复杂的写实场景。相比之前的版本,这两

GPT-4o图像生成能力集成GPTs,开启个性化图像机器人新篇章
OpenAI宣布GPT-4o的图像生成能力正式集成到GPTs(自定义GPT)平台,为开发者与创作者提供了构建个性化图像生成机器人的强大工具。据AIbase了解,这一更新允许用户通过GPTs打造专属图像生成应用,如海报设计机器人或特定艺术风格生成器,极大地提升了创作灵活性与共享性。社交平台上的热烈讨论凸显了其广泛影响力,相关功能已向ChatGPT Plus、Pro及Team用户开放。AIbase为您带来详细报道。核心功能:GPTs赋能个性化图像生成GPT-4o的图像生成能力融入GPTs,标志着AI创作从通用工具向个性化应用的
GPT-4o图像生成功能现已集成至自定义GPTs
2025年4月26日 AIbase报道:OpenAI近日宣布,其旗舰多模态模型GPT-4o的图像生成功能现已正式集成至ChatGPT的自定义GPTs功能中。这一更新标志着用户创建的定制化AI助手能够直接生成和编辑图像,为内容创作、设计和教育等领域带来更多可能性。无缝集成的图像生成体验GPT-4o的图像生成功能此前已于2025年3月25日起在ChatGPT和Sora平台向免费、Plus、Pro和Team用户逐步开放。与过去依赖DALL-E3等外部模型不同,GPT-4o的图像生成能力内嵌于模型本身,支持直接根据文本提示生成高质量图像。如今,这一功能

3DV-TON革新视频试穿,扩散模型驱动纹理3D一致性新体验
一款名为3DV-TON(Textured3D-Guided Consistent Video Try-on via Diffusion Models)的创新技术正式亮相,通过扩散模型实现纹理3D引导的视频试穿体验。据AIbase了解,3DV-TON利用先进的3D几何与纹理建模,结合视频扩散模型,确保服装在动态视频中的一致性与真实感,为电商、时尚和虚拟现实领域带来突破性应用。相关细节已通过学术平台与社交媒体公开。核心功能:3D纹理引导与视频一致性3DV-TON通过整合3D建模与视频生成技术,解决了传统虚拟试穿中动态不一致与纹理失真的难题。AIbase梳理了其主要亮点:

ImageSlider 2.0即将加入核心产品线,图像生成功能全面升级
Gradio团队宣布ImageSlider2.0即将作为核心产品线的一部分正式推出,为图像生成爱好者和开发者带来一系列全新功能与性能增强。据AIbase了解,这一更新通过优化用户体验、扩展创作选项和提升生成效率,旨在重新定义AI驱动的图像滑动与展示体验。相关细节已在社交平台与Gradio官网公布,引发社区热烈反响。核心功能:多场景优化与创作自由度提升ImageSlider2.0通过技术革新与功能扩展,为用户提供了更灵活的图像生成与展示解决方案。AIbase梳理了其主要亮点: 增强型图像滑动体验:新增动态过

Adobe的AI图像生成工具Firefly将发布iOS和安卓版
在最新的动态中,Adobe 公司宣布将推出其 AI 图像生成工具 Firefly 的移动版本,旨在与 OpenAI 进行更为激烈的竞争。这一消息在伦敦的 MAX 创意大会上得到正式发布,Adobe 表示 Firefly 的移动应用程序将很快上线,支持 iOS 和安卓平台,但具体的发布日期尚未确定。Adobe Firefly 的副总裁 Alexandru Costin 在接受 CNBC 采访时指出,创意工作者在移动中常常会激发灵感,而 Firefly 的移动版本正是为了成为用户随时随地的 “创意伙伴”。通过这个应用,用户可以轻松捕捉到灵感,进而提升工作效率。例如,

即梦3.0海外版发布,电影级视觉与精准英文排版引领AI创作新高度
字节跳动旗下即梦AI(Jimeng AI)正式推出即梦3.0海外版本,标志着其文本到图像与视频生成技术向全球市场的进一步扩展。据AIbase了解,新版本以电影级画面品质、2K分辨率输出、超逼真材质与精准英文排版为核心亮点,尤其在英文文本生成与字体控制上表现卓越,超越此前中文版本的效果。发布消息已在社交平台引发热烈讨论,相关功能可通过即梦官网与移动应用体验。核心功能:电影级视觉与精准文本生成即梦3.0海外版通过技术升级,为用户提供了前所未有的视觉创作体验。AIbase梳理了