昆仑万维开源视频生成大模型SkyReels-V3,实现参考图像转视频、视频延长及音频驱动虚拟形象三大功能集成。该模型支持1至4张参考图输入,能精准保留主体身份与构图,推动视频生成技术进入高保真、多模态新阶段。
谷歌将AI订阅服务Google AI Plus扩展至35个国家和地区,旨在以更具竞争力的价格推广其尖端生成式AI技术。该服务提供全方位的智能增强方案,包括Gemini 3 Pro模型和移动端优化的Nana Banana Pro图像生成工具。
百度发布文心5.0全模态大模型,参数达2.4万亿,具备强大语言理解与生成能力。其采用全模态统一建模技术,可同时处理文本、图像、音频和视频,实现多类型数据的融合优化,标志着AI领域的重要进展。
苹果最新发布的多模态AI模型“Manzano”,成功将视觉识别与文本生成图像功能结合,实现“双修”能力。该模型不仅能精准理解图像内容,还能根据文本生成高质量图片,标志着AI技术的重要突破,有望满足行业对多功能模型的需求。
前沿AI图像生成器,结合双技术,有卓越文本渲染能力。
GLM Image是由GLM - Image技术驱动的AI图像生成与编辑器,功能强大。
使用先进的 AI 技术生成视频、图像和音乐。
Nano AI是先进的AI图像生成器,用纳米香蕉技术秒速生成惊艳图像。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
silveroxides
基于 black-forest-labs/FLUX.2-dev 的优化版本图像生成模型,支持图像到图像的生成和编辑任务,采用 fp8_scaled 量化技术提升推理速度,特别适合在低显存 GPU 上使用。
ostris
这是一个基于LoRA技术的文本到图像转换模型,专门用于生成具有法国印象派画家贝尔特·莫里索艺术风格的图像。该模型在FLUX.2-dev基础模型上训练,能够将普通图像或文本描述转换为莫里索风格的画作。
DavidAU
这是一个增强版的多模态视觉语言模型,基于Qwen3-VL-8B-Thinking模型,通过Brainstorm 20x技术扩展至12B参数,采用NEO Imatrix增强的GGUF量化。模型具备强大的图像理解、文本生成和多模态推理能力,在视觉感知、文本质量和创意场景方面都有显著提升。
uriel353
Anime2Realism是一个基于Qwen/Qwen-Image基础模型的文本到图像转换模型,专门实现从动漫风格到写实风格的图像转换。该模型利用LoRA和Diffusers技术,能够根据文本描述生成相应的写实风格图像。
QuantStack
本项目是基于Flux架构的文本到图像模型Nepotism的量化版本,采用SVDQuant技术进行优化。提供了INT4和FP4两种量化格式,分别适用于不同世代的GPU硬件,在保持图像生成质量的同时显著减少模型大小和内存占用。
stablellama
这是一个基于Qwen/Qwen-Image模型的LyCORIS适配器,专门用于文本到图像和图像到图像的生成任务。该模型在训练过程中未使用验证提示,采用了优化的训练配置和量化技术。
spooknik
基于Flux.1开发的文本到图像生成模型的量化版本,采用SVDQ量化技术,提供INT4和FP4两种量化格式,适用于不同硬件平台的高效图像生成。
基于J1B的Flux.1-Dev开发的文本到图像生成模型的量化版本,采用SVDQuant技术进行优化,提供INT4和FP4两种量化格式,适用于不同GPU架构的用户。
ashllay
基于Stable Diffusion XL,采用Inversion-DPO方法微调UNet权重,结合直接偏好优化(DPO)技术和反演方法,提升图像生成质量和对齐度的扩散模型
hajar001
本模型使用StyleGAN1架构,并结合StyleGAN2正则化技术进行训练,能够生成分辨率为128×128的逼真人脸图像。模型基于FFHQ数据集训练,支持风格混合、噪声注入和截断技巧等特性。
CenKreChro-SVDQ是基于CenKreChro文本到图像模型的量化版本,采用SVDQuant技术进行优化。该模型结合了Chroma和Flux Krea的优势,提供了高效的图像生成能力,特别针对不同GPU架构进行了优化。
CenKreChro-SVDQ 是基于 Chroma 和 Flux Krea 合并的文本到图像生成模型的量化版本,采用 SVDQuant 技术进行优化,提供 INT4 和 FP4 两种量化格式,分别适用于不同世代的 GPU 硬件。
loyal-misc
svizz 是一个基于 LoRA 技术的文本到图像生成模型,以 LyliaEngine/Pony_Diffusion_V6_XL 为基础模型,能够通过特定触发词生成高质量的图像内容。
MadhavRupala
Stable Diffusion v1-5是基于潜在扩散技术的文本到图像生成模型,能够根据文本描述生成逼真的图像。该模型在LAION-2B数据集上训练,支持英语文本输入,生成512x512分辨率的图像。
mrgant
lans_v1 - lora是基于Qwen/Qwen-Image模型使用AI Toolkit by Ostris训练的文本到图像转换模型,采用LoRA技术进行优化,具备良好的图像生成能力。
BarleyFarmer
pejawan22-lora是一个基于AI技术训练的LoRA模型,专门用于特定图像的生成,可与多种AI工具集成使用,通过触发词'peja'来生成图像。
John6666
这是一个基于Stable Diffusion和Stable Diffusion XL技术的文本到图像生成模型,专门优化了人物肖像、纹理和皮肤表现,能够生成逼真自然的图像。
deadpoolx22
这是一个基于AI技术的文本到视频LoRA模型,专门针对alita角色进行优化训练,可用于图像生成等场景,为相关领域的应用提供了便利。
lichorosario
这是一个基于Qwen-Image模型使用LoRA技术进行微调的文本到图像生成模型,能够将输入的文本描述转化为对应的图像,支持生成人物形象、影视角色和特定场景等多种类型的图像。
piccoli_no_style-lora是一个基于图像到视频、LoRA技术的生成模型,使用AI Toolkit训练,以Qwen/Qwen-Image为基础模型,支持多种图像生成场景。
这是一个包含大量开源AI项目的列表,涵盖了从自然语言处理、图像生成到自动化工作流等多个领域。这些项目旨在帮助开发者利用AI技术构建各种应用,包括聊天机器人、代码生成工具、数据处理系统等。
一个基于Cloudflare Worker的极简图像生成模板,使用workers-mcp包和Workers AI技术,支持本地开发和快速部署。
这是一个包含多个开源AI项目的列表,涵盖了从自动化代理、大语言模型、图像生成到AI开发框架等多个领域。这些项目旨在帮助开发者利用AI技术赚钱,包括构建智能助手、自动化工作流、内容生成等应用。