瑞典AI初创公司Lovable完成3.3亿美元B轮融资,估值达66亿美元,较7月增长超三倍。本轮由CapitalG和Menlo Ventures领投,英伟达、Salesforce Ventures及德国电信跟投。公司核心技术为文本提示生成AI。
Runway发布新一代视频生成模型Gen-4.5,显著提升视觉准确性与创意控制能力。用户通过简短文本提示即可生成高清动态视频,支持复杂场景与生动角色。该模型基于Nvidia GPU进行训练与推理,优化生成精度与风格表现。
智谱AI推出清影2.0,基于自研CogVideoX模型,可直接生成1080P高清视频,最长10秒。模型全面控制运动、镜头和风格,支持多视频同时生成及镜头指定。实测画质接近Sora,中文提示理解更准、生成更快。还集成CogSound音效模块,实现文本到视频的高效创作。
谷歌Gemini应用更新,支持在视频提示中上传多张参考图像,结合文本生成视频和音频,让用户更精准控制视频外观和声音。此功能已在Flow平台测试,Flow还支持视频扩展和场景拼接,提供更高视频质量。
专业AI提示词构建器与库,为图像、视频、文本生成创建结构化提示词。
FLUX.2 Pro可一键生成与编辑,用提示词和8张参考图得4MP清晰文本图像。
insMind免费AI文本转视频生成器,在线根据文本提示创建精彩视频
可根据图像和文本提示创建令人惊叹的AI生成视频
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$6
$24
256
Baidu
128
Bytedance
$1.2
$3.6
4
$2
gguf-org
flux2-dev-gguf 是一个基于 FLUX.2-dev 的图像到图像转换模型,专门用于根据文本提示生成特定风格的图像。该模型支持在 ComfyUI 环境中运行,能够将文本描述转换为风格化的视觉内容。
sd2-community
Stable Diffusion v2-1-base是基于文本生成图像的扩散模型,在v2-base基础上进行了220k额外步骤的微调优化。该模型能够根据文本提示生成和修改图像,支持多种分辨率输出,适用于艺术创作、教育研究等多个领域。
Stable Diffusion v2 是一个基于扩散模型的文本到图像生成模型,能够根据文本提示生成和修改图像。该模型在LAION-5B数据集子集上训练,结合了自编码器和扩散模型,在潜在空间中进行训练,支持多种分辨率和任务。
noctrex
这是PromptCoT-2.0-SelfPlay-30B-A3B模型的MXFP4_MOE量化版本,专门用于文本生成任务。该模型采用了思维链提示和自博弈训练技术,通过量化优化实现了更高效的推理性能。
stablellama
这是一个基于Qwen/Qwen-Image模型的LyCORIS适配器,专门用于文本到图像和图像到图像的生成任务。该模型在训练过程中未使用验证提示,采用了优化的训练配置和量化技术。
neuralvfx
LibreFLUX-ControlNet是一个基于ControlNet架构的文本到图像生成模型,使用LibreFLUX作为基础Transformer模型。该模型在SA1B数据集上进行训练,能够根据文本提示和控制图像生成高质量的图像内容。
Lambent
Mira是一个基于多个Gemma 3 27B基础模型融合的文本生成模型,通过精心挑选的训练数据和特定训练方式,具备独特的诗意文本生成能力。该模型在角色扮演和创意写作方面表现出色,能够根据不同的系统提示生成富有文学色彩的文本。
nunchaku-tech
基于sdxl-turbo经过Nunchaku量化处理的文本到图像生成模型,旨在根据文本提示生成高质量图像。该模型针对高效推理进行了优化,在保持性能的同时显著减小模型大小。
Alissonerdx
HuMo是一个统一的、以人为中心的视频生成框架,能够根据文本、图像和音频等多模态输入,生成高质量、细粒度且可控的人类视频。它支持强大的文本提示跟随、一致的主体保留以及同步的音频驱动运动。
VeryAladeen
HuMo是一个以人为中心的视频生成框架,能够利用文本、图像和音频等多模态输入生成高质量、细粒度且可控的人类视频,支持文本提示跟随、主体保留和音频驱动运动同步。
Wan-AI
Wan2.2-S2V-14B是一个专为音频驱动的电影级视频生成而设计的混合专家(MoE)模型。它能够根据输入的音频、参考图像和文本提示生成高质量的视频内容,支持480P和720P分辨率,并具备复杂运动生成和电影级美学效果。
camenduru
FLUX.1 [dev] 是一个具有120亿参数的整流流变压器,专门用于文本到图像生成。它在图像生成质量方面表现卓越,仅次于FLUX.1 [pro],具有出色的提示跟随能力和高效的训练方式,为科研和创作提供强大支持。
John6666
Intorealism XL 是一款强大的文本到图像生成模型,能够生成逼真、细腻的图像,涵盖人像、风景等多种主题,在光影、纹理等方面表现出色,严格遵循输入提示进行图像创作。
InvokeAI
FLUX.1 Krea [dev] 是一个拥有120亿参数的先进整流流变换器模型,专门用于根据文本描述生成高质量图像。该模型在美学摄影领域表现卓越,具有出色的提示遵循能力,采用引导蒸馏技术训练,并开放权重供非商业用途使用。
Colossus Project Flux 的 Nunchaku 量化版本,旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时,将性能损失降至最低。
这是一个经过Nunchaku量化的SANA-1.6B模型版本,专门用于根据文本提示生成高质量图像。该模型通过先进的SVDQuant量化技术,在保持生成质量的同时显著优化了推理效率,适用于各种文本到图像的生成任务。
Nunchaku 量化的 FLUX.1-dev 模型,用于根据文本提示生成高质量图像,优化了推理效率。
sriprabha
这是一个基于FLUX.1-schnell的LyCORIS适配器,专门用于文本到图像生成任务。该模型通过LoRA技术进行微调,在训练过程中未使用验证提示,文本编码器未进行训练,可复用基础模型的文本编码器进行推理。
Roblox
RoGuard 1.0 是一款基于 Llama-3.1-8B-Instruct 微调的先进大语言模型,专门用于为大语言模型提供安全保障。它能够在提示和回复两个层面进行安全分类,判断输入或输出是否违反安全政策,为文本生成API提供强大的安全护栏。
Roblox Guard 1.0是一款基于Llama-3.1-8B-Instruct微调的最先进指令微调大语言模型,专门设计用于保护文本生成API的安全。它能够在提示词和回复层面进行双级安全分类,有效审核用户查询和模型输出,确保内容符合安全政策。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
一个基于MCP协议的图像生成服务器,使用Replicate的flux-schnell模型,支持通过文本提示生成图像,并可配置多种参数。
一个基于TypeScript的MCP服务器,使用OPENAI的dall-e-3模型根据文本提示生成图像,并支持将生成的图像保存到本地指定目录。
一个基于OpenAI GPT-4o/gpt-image-1模型的图像生成与编辑工具,支持通过文本提示生成图像、编辑图像(如修复、扩展、合成等),并兼容多种MCP客户端。
MCP图像生成器是一个基于Together AI或Replicate的图像生成服务,支持通过SSE端点或本地运行,提供根据文本提示生成图像的功能。
Image Generation MCP Server是一个为Claude Desktop提供图像生成功能的MCP服务器,使用Replicate Flux模型,支持通过文本提示生成图像,并可通过Smithery或npm安装配置。
一个基于Google Gemini图像生成模型的MCP服务器,允许AI代理通过文本提示生成、编辑和描述图像,支持多种模型和配置选项。
游戏资产生成器利用AI模型和MCP协议,通过文本提示快速生成2D和3D游戏资源。
一个基于OpenAI gpt-image-1模型的图像生成与编辑MCP服务器,支持通过文本提示创建和修改图像,提供便捷的集成方式和丰富的配置选项。
一个基于TypeScript的MCP服务器,使用OpenAI的DALL-E 3模型根据文本提示生成图像。
一个基于Google Gemini API的MCP服务器,提供图像生成功能,支持通过文本提示创建图像并自动上传到ImgBB图床。
Flux ImageGen MCP Server是一个基于Model Context Protocol (MCP)的专用服务器,专注于通过Pollinations AI提供图像生成和处理功能。它支持从文本提示生成图像URL、直接生成图像以及管理多种图像生成模型。
一个基于Amazon Bedrock Nova Canvas模型的MCP服务器,提供高质量的AI图像生成服务,支持文本描述生成图像、负面提示优化、尺寸配置和种子控制等功能。
一个基于OpenAI API的图像生成MCP服务器,提供通过文本提示创建、编辑和组合图像的功能,支持多种模型和参数配置,可集成到兼容的MCP客户端中使用。
一个基于Replicate Flux模型的图像生成MCP服务器,可通过文本提示生成各种风格的图像。
该项目是一个MCP服务器,用于将Google的Gemini模型与Claude Code集成,实现两大AI系统的协作。提供直接查询、协作头脑风暴、代码分析、文本分析、内容摘要和图像提示生成等功能。