美团LongCat团队开源了LongCat-Image图像生成模型,该模型拥有6B参数,在文生图和图像编辑领域表现优异,旨在平衡性能与使用门槛,填补开源与闭源模型之间的技术空白。
阿里巴巴通义实验室开源Z-Image-Turbo-Fun-Controlnet-Union模型,扩展Z-Image系列图像生成生态。该模型强化了精确控制与创意生成能力,已在Hugging Face上线,采用Apache2.0许可,支持商用。
阿里巴巴开源Z-Image图像模型,支持中英双语文字渲染,仅6B参数实现高效图像生成与编辑,视觉质量优秀。该模型由通义实验室开发,聚焦AI技术趋势,助力开发者洞悉创新应用。
阿里巴巴开源Z-Image图像生成模型,仅6B参数实现高效生成与编辑,视觉质量接近20B级别商业模型。该模型采用单流DiT架构,生成速度快、资源占用低,有望推动AI图像工具普及消费级应用。
FLUX 2 Dev是用于图像生成与编辑的开源权重模型,支持多参考编辑等
Qwen Image AI是阿里巴巴Qwen团队推出的开源图像生成和编辑基础模型,用于准确的图像文本渲染和高级编辑。
一款具有 17 亿参数的开源图像生成基础模型。
一个基于文本生成图像的预训练模型,具有80亿参数和Apache 2.0开源许可。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
00quebec
这是一个专门为 Qwen-Image 设计的开源 LoRA 模型,专注于模拟现代 iPhone 摄影的真实感外观和感觉。模型基于5000多张真实 iPhone 风格照片训练,能够生成清晰、自然、适合社交媒体分享的图像。
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全开源全模态模型,采用全模态 3D RoPE 和动态容量专家混合架构,显著提升了以语言为中心的多模态理解、推理和生成能力。该版本集成了全模态理解以及音频和图像生成能力。
Gemma 3 27B IT QAT的MLX MXFP4量化版本,是由Google开发的轻量级开源多模态模型。该模型能够同时处理文本和图像输入并生成文本输出,拥有128K大上下文窗口,支持超过140种语言,适用于多种文本生成和图像理解任务。
Edweibin
Pola Photo (Flux Dev) 是一个基于 Flux.1-dev 的图像生成模型,专门生成具有宝丽来即拍照片风格的逼真图像。该模型在 Replicate 平台上使用开源材料训练,遵循 CC 非商业署名许可协议。
unsloth
Gemma 3是Google推出的轻量级、最先进的开源模型家族,基于与Gemini模型相同的研究和技术构建。该模型具有多模态处理能力,支持文本和图像输入,并生成文本输出,适用于各种文本生成和图像理解任务。
Gemma 3是谷歌推出的轻量级开源多模态模型家族,能够处理文本和图像输入并生成文本输出。具有128K大上下文窗口,支持140多种语言,适用于文本生成和图像理解等多种任务。
Gemma 3是谷歌推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建。270M版本是其中最小的模型,能够处理文本和图像输入并生成文本输出,适用于多种文本生成和图像理解任务。
lodestones
Chroma1-HD是基于FLUX.1-schnell架构的文本到图像生成基础模型,拥有89亿参数,采用Apache 2.0开源许可。该模型专为微调设计,为开发者和研究人员提供了强大的图像生成基础,支持创建各种专业化的视觉内容。
onnx-community
Gemma 3是谷歌推出的轻量级、最先进的开源多模态模型家族,支持140多种语言,具备文本生成和图像理解能力。270M参数版本专为资源受限环境设计,可在笔记本电脑、台式机等设备上部署。
deepseek-community
DeepSeek-VL 是一个开源的视觉语言模型,能够同时处理文本和图像,生成上下文相关的响应。该模型采用混合编码架构,结合LLaMA文本编码器和SigLip/SAM视觉编码器,支持高分辨率图像处理,在真实世界应用中表现出色。
DeepSeek-VL是由DeepSeek AI团队开发的开源视觉语言模型,能够同时处理文本和图像信息,生成上下文相关的回复。该模型采用混合视觉编码器,支持高分辨率图像处理,在真实世界的视觉语言理解应用中表现出色。
Mungert
SmolVLM是一个紧凑的开源多模态模型,能够接受图像和文本输入并生成文本输出,专为高效设计,适用于设备端应用。
declare-lab
Nora是一个开源的视觉-语言-动作模型,基于Qwen 2.5 VL - 3B训练,能够根据语言指令和相机图像生成机器人动作。
Gemma 3是Google推出的轻量级、最先进的多模态开源模型,能够处理文本和图像输入并生成文本输出。
Runware
HiDream-I1是一款拥有170亿参数的开源图像生成基础模型,可在数秒内实现最先进的图像生成质量。
HiDream-I1是一款拥有170亿参数的开源图像生成基础模型,能够在数秒内生成达到业界顶尖水准的图像。
ostris
开源80亿参数文本生成图像扩散模型,内置通用控制和图像修复功能
Gemma 3是谷歌推出的轻量级开源多模态模型系列,基于与Gemini模型相同的研究构建。本版本为4B参数的指令微调模型,采用量化感知训练(QAT),支持文本和图像输入并生成文本输出,适用于多种文本生成和图像理解任务。
Gemma 3是谷歌推出的轻量级、最先进的多模态开源模型,能处理文本和图像输入并生成文本输出,适用于多种文本生成和图像理解任务。
Model Context Protocol (MCP) 是一个开源协议,提供了一系列参考实现和社区开发的服务器,旨在为大型语言模型(LLM)提供安全、可控的工具和数据源访问。这些服务器展示了MCP的多样性和可扩展性,涵盖了从文件系统操作到数据库集成、从网络搜索到AI图像生成等多种功能。
这是一个包含多个开源AI项目的列表,涵盖了从自动化代理、大语言模型、图像生成到AI开发框架等多个领域。这些项目旨在帮助开发者利用AI技术赚钱,包括构建智能助手、自动化工作流、内容生成等应用。