Maya Research推出Maya1文本转语音模型,30亿参数,可在单GPU实时运行。模型通过自然语言描述和文本输入,生成可控且富有表现力的语音,精准模拟人类情感与声音细节,如指定年龄、口音或角色特征。
xAI旗下Grok Imagine实现纯文本生成短视频,用户输入描述即可在17秒内获得带音效、动态镜头和专业画质的6-15秒视频,无需图像输入或编辑基础。这一升级打通“想法到成片”环节,以高速优势挑战OpenAI Sora和Google Veo的市场地位。
谷歌AI Studio推出全新AI应用构建器,用户仅需输入文本描述即可创建AI驱动应用,实现“零代码”开发。此举使谷歌与微软、OpenAI等公司在无代码工具领域并驾齐驱。核心亮点是深度集成多模态Gemini模型,开发者可利用Nano Banana模型轻松实现图像生成功能。
Snapchat推出"Imagine Lens"新功能,支持用户通过文本描述生成和编辑图像,面向付费订阅用户开放。该功能允许自定义提示词创建、修改和重制Snap内容,并支持多平台分享。这是Snapchat首款开放式生成式AI工具。
NanoBananas是一款AI图像生成平台,通过简单的文本描述即可生成惊人的图像、表情和角色设计。
AI Nano Banana是一款基于AI的图像生成和编辑平台,通过简单的文本描述创建令人惊叹的视觉效果。
使用AI快速生成UML图表,从简单的文本描述中生成类图、ER图等。快速、直观、强大。
AI Doll通过AI生成、3D建模和专业打印将您的文本描述转化为定制动作人偶。
meta
$0.43
输入tokens/百万
输出tokens/百万
128k
上下文长度
bytedance
$1.5
$4.5
QuantStack
这是一个将hlwang06/HoloCine模型转换为GGUF格式的文本到视频生成模型,支持通过文本描述生成视频内容,采用Apache-2.0许可证。
GatorBarbarian
TRELLIS Text XL是一个大型3D生成模型,是TRELLIS的文本条件版本,模型大小为XL。该模型基于论文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能够根据文本描述生成高质量的3D内容。
briaai
FIBO是首个专为长结构化描述训练的开源文本到图像模型,为可控性、可预测性和特征解耦设定了新标准。该模型拥有80亿参数,仅使用有许可的数据进行训练,支持专业工作流程需求。
lichorosario
这是一个基于Qwen-Image模型训练的LoRA(Low-Rank Adaptation)模型,专门用于文本到图像的生成任务。该项目使用AI Toolkit训练,能够将文本描述转化为高质量的图像,支持在多种图像生成工具中使用。
bghira
这是一个基于PixArt-900M-1024模型的LyCORIS适配器,专门用于文本到图像的转换任务。该模型能够根据输入的文本描述生成相应的图像,支持多种分辨率的图像生成。
rajinikarcg
这是一个基于BERT微调的软件需求二分类模型,专门用于识别和分类软件需求文档中的需求与非需求文本,准确区分功能性需求描述与其他内容。
MadhavRupala
Stable Diffusion v1-5是基于潜在扩散技术的文本到图像生成模型,能够根据文本描述生成逼真的图像。该模型在LAION-2B数据集上训练,支持英语文本输入,生成512x512分辨率的图像。
这是一个基于Qwen-Image模型使用LoRA技术进行微调的文本到图像生成模型,能够将输入的文本描述转化为对应的图像,支持生成人物形象、影视角色和特定场景等多种类型的图像。
John6666
Illustrious-xl-early-release-v0 是一款基于 Stable Diffusion XL 架构的文本到图像生成模型,专门针对动漫和2D插画风格进行优化,能够根据文本描述生成高质量的图像作品。
manycore-research
FLUX.1 Wireframe [dev] LoRA 是 FLUX.1-Layout-ControlNet 的改进版本,作为 SpatialGen 的关键组件,能够根据文本描述生成图像,同时遵循给定线框图像的结构。该模型适用于 FLUX.1 [dev] 框架,专门用于室内场景生成任务。
uwcc
poshanimals是一个基于FLUX.1-dev模型训练的文本到图像生成模型,使用AI Toolkit by Ostris训练,能够根据文本描述生成具有特定风格的图像作品。
tekoaly4
这是一个基于stabilityai/stable-diffusion-3.5-large的LyCORIS适配器,专门用于文本到图像生成,能够根据文本描述生成高质量的产品摄影图像,特别针对Borges品牌产品进行了优化。
FLUX.1-Layout-ControlNet是SpatialGen框架的关键组件,是一个基于语义图像条件化的ControlNet模型。它能够根据文本描述生成2D图像,同时严格遵循输入语义图像的布局约束,主要用于3D室内场景合成。
Immac
NetaYume Lumina Image 2.0 是一个文本到图像的扩散模型,经过GGUF格式量化处理,能够将文本描述转换为图像。该模型经过优化,在保持生成质量的同时减少了内存使用和提升了性能。
davidrd123
这是一个基于Qwen/Qwen-Image的LyCORIS适配器,专门用于文本到图像的生成任务。该模型能够根据输入的文本描述生成相应的图像,特别擅长生成具有涂鸦风格和混合媒体效果的图像内容。
duyntnet
Chroma 是一个高质量的文本到图像生成模型,专注于生成逼真的图像内容。该模型采用先进的扩散技术,能够根据文本描述生成高质量的视觉内容,特别适合本地部署环境下的图像创作需求。
sothmik
这是一个基于Civitai平台的文本到图像生成模型,能够将文本描述转换为高质量的图像。模型支持通过量化工具进行优化,适用于创意设计和视觉内容生成。
Clybius
FLUX.1 Krea [dev] 是一个拥有120亿参数的整流流变换器模型,专门用于根据文本描述生成高质量图像。该模型采用FP8量化技术,具备与原始FLUX.1 [dev]相同的特性,但经过优化以提升性能。模型输出可用于个人、科学和商业目的,但需遵守非商业许可协议。
InvokeAI
FLUX.1 Krea [dev] 是一个拥有120亿参数的整流流变换器,能够根据文本描述生成高质量图像。该模型专注于美学摄影,在图像质量和指令遵循方面表现卓越,采用引导蒸馏进行高效训练,并开放权重以推动科研和艺术创作。
FLUX.1 Krea [dev] 是一个拥有120亿参数的先进整流流变换器模型,专门用于根据文本描述生成高质量图像。该模型在美学摄影领域表现卓越,具有出色的提示遵循能力,采用引导蒸馏技术训练,并开放权重供非商业用途使用。
基于即梦AI的图像生成服务,专为Cursor IDE设计,实现文本描述到图像的生成与保存。
一个提供图像识别功能的MCP服务器,支持Anthropic和OpenAI的视觉API,具备图像描述、多格式支持、可配置主备服务商及OCR文本提取功能。
一个基于Go语言的MCP服务器,通过OpenAI的DALL-E API实现文本描述生成图像功能,可与Claude等大型语言模型集成使用。
Gemini Nanobanana MCP 是一个让用户通过文本描述生成AI图像的Claude插件,集成了Google Gemini 2.5 Flash图像生成功能,支持多种图像编辑和创作方式。
一个基于Inspire后端图像搜索能力的MCP服务器,提供通过文本描述搜索相似图片的功能。
MCP-Diagram是一个通过文本描述快速生成多种类型图表(如架构图、UML类图等)的服务器工具,支持与Claude等AI助手集成。
该项目实现了一个MCP服务器,通过OpenAI的gpt-image-1模型提供图像生成和编辑功能,支持文本描述生成图像、基于参考图像编辑或修复图像,并可将结果保存到本地。
Flux Image MCP Server是一个基于Flux Schnell模型的图像生成服务,通过Replicate平台提供API接口,支持通过文本描述生成图像。
一个基于Amazon Bedrock Nova Canvas模型的MCP服务器,提供高质量的AI图像生成服务,支持文本描述生成图像、负面提示优化、尺寸配置和种子控制等功能。
一个基于grep命令的MCP服务器,提供强大的文本搜索功能,支持自然语言描述和正则表达式搜索。
一个基于Freepik Flux AI的MCP服务器,用于通过文本描述生成图像,支持多种宽高比,并与Claude Desktop集成。
一个基于HTTP的图片生成服务器,通过调用Replicate的Flux Schnell模型来根据文本描述生成图像。
一个基于Go语言的MCP服务器,通过OpenAI的DALL-E API实现文本描述生成图像功能,支持与Claude等大型语言模型集成。