谷歌于12月1日推出Gemini 3大模型,接入搜索AI模式,覆盖近120个国家地区,向AI Pro与Ultra订阅用户开放。同时上线Nano Banana Pro图像模型,支持2K/4K分辨率、精准文本渲染及专业级摄影控制,定价1080p为0.139美元、4K为0.24美元。Gemini 3采用原生多模态架构,统一处理文本、图像、音频和视频。
德国AI公司Black Forest Labs发布全新图像生成编辑系统FLUX.2,包含四个不同规模模型,支持高效创意工作流程。技术提升包括多参考条件、更高保真度输出和改进文本渲染,推动图像生成技术进步。
谷歌发布Imagen4文本转图像模型,通过Gemini API和AI Studio开放。新版本显著提升文本渲染性能,包含三个版本:标准版提升图像生成质量和文本准确性;Imagen4Fast版针对快速生成需求优化。
阿里开源Qwen-Image-Edit图像编辑模型,具备精准文本编辑和语义外观双控能力,中文渲染效果超越GPT-4o。该模型由阿里通义千问团队开发,采用双重编码机制,为开发者提供强大AI工具,助力技术趋势洞察与创新应用探索。
前沿AI图像生成器,结合双技术,有卓越文本渲染能力。
免费文本生成AI艺术图像,支持4K,无水印,快速出图,可升级Pro。
Nanobanana Pro:AI图像生成器,文本渲染完美,可生成数学解和信息图。
Banana Pro是下一代AI图像模型,支持文本转图像、高分辨率渲染和精确编辑
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
Baidu
128
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
PeterKocsis
IntrinsiX是一个专注于利用图像先验进行高质量PBR(基于物理的渲染)生成的项目,能够从文本输入生成可渲染的PBR地图,为图像生成和大规模PBR纹理生成提供创新解决方案。
Qwen
Qwen-Image是通义系列的多模态图像生成基础模型,在复杂文本渲染和精确图像编辑方面表现卓越,特别擅长中文文本渲染,支持多种图像生成和编辑任务。
PosterCraft
PosterCraft是一个用于高质量美学海报生成的统一框架,在精确文本渲染、抽象艺术无缝融合、醒目布局和风格协调方面表现出色。
X-ART
LeX-Lumina是一个高质量的文本生成图像模型,专注于提升文本渲染保真度和美学效果。
Yntec
复仇者是基于LiberteRedmond与Vintedois混合模型并融合3D渲染LoRA的文本生成图像模型,优化了构图能力与简洁提示词效果。
goofyai
基于FLUX框架开发的3D渲染文本生成图像模型,支持通过LoRA微调生成高质量3D风格图像
gvecchio
StableMaterials 是一款基于扩散模型的物理渲染(PBR)材质生成工具,能够根据文本或图像提示生成高分辨率、可平铺的材质贴图。
JingyeChen22
TextDiffuser-2 是一个文本生成图像的模型,专注于文本渲染任务,通过释放语言模型的潜力来生成包含文本的图像。
基于Stable Diffusion XL的3D风格图像生成模型,支持通过文本提示生成高质量的3D渲染风格图像。
digiplay
一个高质量的稳定扩散模型,能够根据文本描述生成逼真的图像,尤其擅长人物肖像和复杂细节的渲染。
openai
Shap-E是一种基于扩散过程的文本生成3D图像模型,能够根据文本提示生成可渲染为纹理网格和神经辐射场的3D资产。
yuanzheng
这是一个基于Dreambooth技术微调的文本生成图像模型,专注于商业场景的图像生成,特别是日本料理和清酒的高质量渲染。
这是一个用于生成PDF文档的MCP服务器,支持从文本、布局创建PDF,以及将PDF页面渲染为图像,特别适用于简历生成和灵活排版。
D2 MCP Server是一个提供D2图表生成和操作功能的模型上下文协议服务器,支持通过文本创建、渲染、导出和保存D2图表,并具备增量编辑能力。
一个用于获取和转换网页内容的MCP服务器,支持多种格式提取和渲染,包括原始文本、HTML、Markdown以及媒体文件内容分析。