以色列科技公司Lightricks推出LTX-2视听合成系统,能根据文本描述直接生成20秒高清视频,实现音画同步。该系统突破传统“先画面后配音”流程,采用双流并行计算架构,通过190亿参数提升计算效能,更真实还原自然音画环境。
腾讯混元团队开源HY-Motion1.0模型,基于DiT架构与流匹配技术,通过文本描述即可生成高质量3D骨骼动画,兼容主流3D工具,大幅降低动画制作门槛。该模型采用全阶段训练策略,利用超3000小时动作数据优化生成效果。
阿里巴巴云发布两款AI语音模型,Qwen3-TTS-VD-Flash支持用户通过文本指令定制声音,可精确描述声音的情感、节奏等特征,实现个性化语音生成。
Maya Research推出Maya1文本转语音模型,30亿参数,可在单GPU实时运行。模型通过自然语言描述和文本输入,生成可控且富有表现力的语音,精准模拟人类情感与声音细节,如指定年龄、口音或角色特征。
NanoBananas是一款AI图像生成平台,通过简单的文本描述即可生成惊人的图像、表情和角色设计。
AI Nano Banana是一款基于AI的图像生成和编辑平台,通过简单的文本描述创建令人惊叹的视觉效果。
使用AI快速生成UML图表,从简单的文本描述中生成类图、ER图等。快速、直观、强大。
AI Doll通过AI生成、3D建模和专业打印将您的文本描述转化为定制动作人偶。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
Baidu
128
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
gguf-org
flux2-dev-gguf 是一个基于 FLUX.2-dev 的图像到图像转换模型,专门用于根据文本提示生成特定风格的图像。该模型支持在 ComfyUI 环境中运行,能够将文本描述转换为风格化的视觉内容。
ostris
这是一个基于LoRA技术的文本到图像转换模型,专门用于生成具有法国印象派画家贝尔特·莫里索艺术风格的图像。该模型在FLUX.2-dev基础模型上训练,能够将普通图像或文本描述转换为莫里索风格的画作。
uriel353
Anime2Realism是一个基于Qwen/Qwen-Image基础模型的文本到图像转换模型,专门实现从动漫风格到写实风格的图像转换。该模型利用LoRA和Diffusers技术,能够根据文本描述生成相应的写实风格图像。
QuantStack
这是一个将hlwang06/HoloCine模型转换为GGUF格式的文本到视频生成模型,支持通过文本描述生成视频内容,采用Apache-2.0许可证。
GatorBarbarian
TRELLIS Text XL是一个大型3D生成模型,是TRELLIS的文本条件版本,模型大小为XL。该模型基于论文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能够根据文本描述生成高质量的3D内容。
lichorosario
这是一个基于Qwen-Image模型训练的LoRA(Low-Rank Adaptation)模型,专门用于文本到图像的生成任务。该项目使用AI Toolkit训练,能够将文本描述转化为高质量的图像,支持在多种图像生成工具中使用。
bghira
这是一个基于PixArt-900M-1024模型的LyCORIS适配器,专门用于文本到图像的转换任务。该模型能够根据输入的文本描述生成相应的图像,支持多种分辨率的图像生成。
MadhavRupala
Stable Diffusion v1-5是基于潜在扩散技术的文本到图像生成模型,能够根据文本描述生成逼真的图像。该模型在LAION-2B数据集上训练,支持英语文本输入,生成512x512分辨率的图像。
这是一个基于Qwen-Image模型使用LoRA技术进行微调的文本到图像生成模型,能够将输入的文本描述转化为对应的图像,支持生成人物形象、影视角色和特定场景等多种类型的图像。
John6666
Illustrious-xl-early-release-v0 是一款基于 Stable Diffusion XL 架构的文本到图像生成模型,专门针对动漫和2D插画风格进行优化,能够根据文本描述生成高质量的图像作品。
hunyuanvideo-community
混元图像2.1是基于diffusers库的文生图模型,能够根据文本描述生成高质量的图像,支持中英双语输入,为用户提供便捷的图像生成体验。
manycore-research
FLUX.1 Wireframe [dev] LoRA 是 FLUX.1-Layout-ControlNet 的改进版本,作为 SpatialGen 的关键组件,能够根据文本描述生成图像,同时遵循给定线框图像的结构。该模型适用于 FLUX.1 [dev] 框架,专门用于室内场景生成任务。
uwcc
poshanimals是一个基于FLUX.1-dev模型训练的文本到图像生成模型,使用AI Toolkit by Ostris训练,能够根据文本描述生成具有特定风格的图像作品。
tekoaly4
这是一个基于stabilityai/stable-diffusion-3.5-large的LyCORIS适配器,专门用于文本到图像生成,能够根据文本描述生成高质量的产品摄影图像,特别针对Borges品牌产品进行了优化。
FLUX.1-Layout-ControlNet是SpatialGen框架的关键组件,是一个基于语义图像条件化的ControlNet模型。它能够根据文本描述生成2D图像,同时严格遵循输入语义图像的布局约束,主要用于3D室内场景合成。
Immac
NetaYume Lumina Image 2.0 是一个文本到图像的扩散模型,经过GGUF格式量化处理,能够将文本描述转换为图像。该模型经过优化,在保持生成质量的同时减少了内存使用和提升了性能。
davidrd123
这是一个基于Qwen/Qwen-Image的LyCORIS适配器,专门用于文本到图像的生成任务。该模型能够根据输入的文本描述生成相应的图像,特别擅长生成具有涂鸦风格和混合媒体效果的图像内容。
duyntnet
Chroma 是一个高质量的文本到图像生成模型,专注于生成逼真的图像内容。该模型采用先进的扩散技术,能够根据文本描述生成高质量的视觉内容,特别适合本地部署环境下的图像创作需求。
sothmik
这是一个基于Civitai平台的文本到图像生成模型,能够将文本描述转换为高质量的图像。模型支持通过量化工具进行优化,适用于创意设计和视觉内容生成。
Clybius
FLUX.1 Krea [dev] 是一个拥有120亿参数的整流流变换器模型,专门用于根据文本描述生成高质量图像。该模型采用FP8量化技术,具备与原始FLUX.1 [dev]相同的特性,但经过优化以提升性能。模型输出可用于个人、科学和商业目的,但需遵守非商业许可协议。
基于即梦AI的图像生成服务,专为Cursor IDE设计,实现文本描述到图像的生成与保存。
一个基于Go语言的MCP服务器,通过OpenAI的DALL-E API实现文本描述生成图像功能,可与Claude等大型语言模型集成使用。
一个基于Google Gemini图像生成模型的MCP服务器,允许AI代理通过文本提示生成、编辑和描述图像,支持多种模型和配置选项。
Gemini Nanobanana MCP 是一个让用户通过文本描述生成AI图像的Claude插件,集成了Google Gemini 2.5 Flash图像生成功能,支持多种图像编辑和创作方式。
Flux Image MCP Server是一个基于Flux Schnell模型的图像生成服务,通过Replicate平台提供API接口,支持通过文本描述生成图像。
该项目实现了一个MCP服务器,通过OpenAI的gpt-image-1模型提供图像生成和编辑功能,支持文本描述生成图像、基于参考图像编辑或修复图像,并可将结果保存到本地。
MCP-Diagram是一个通过文本描述快速生成多种类型图表(如架构图、UML类图等)的服务器工具,支持与Claude等AI助手集成。
一个基于Amazon Bedrock Nova Canvas模型的MCP服务器,提供高质量的AI图像生成服务,支持文本描述生成图像、负面提示优化、尺寸配置和种子控制等功能。
一个基于Freepik Flux AI的MCP服务器,用于通过文本描述生成图像,支持多种宽高比,并与Claude Desktop集成。
一个基于HTTP的图片生成服务器,通过调用Replicate的Flux Schnell模型来根据文本描述生成图像。
Nano Banana是一个专业的MCP扩展,用于通过文本描述生成、编辑和修复图像,支持多种图像处理功能,如生成图标、图案、故事和图表等。
一个基于Go语言的MCP服务器,通过OpenAI的DALL-E API实现文本描述生成图像功能,支持与Claude等大型语言模型集成。
一个基于Model Context Protocol的豆包图片和视频生成服务器,支持通过文本描述生成高质量图片和视频,并查询视频生成任务状态。