腾讯混元团队开源HY-Motion1.0模型,基于DiT架构与流匹配技术,通过文本描述即可生成高质量3D骨骼动画,兼容主流3D工具,大幅降低动画制作门槛。该模型采用全阶段训练策略,利用超3000小时动作数据优化生成效果。
阿里巴巴云发布两款AI语音模型,Qwen3-TTS-VD-Flash支持用户通过文本指令定制声音,可精确描述声音的情感、节奏等特征,实现个性化语音生成。
瑞典AI初创公司Lovable完成3.3亿美元B轮融资,估值达66亿美元,较7月增长超三倍。本轮由CapitalG和Menlo Ventures领投,英伟达、Salesforce Ventures及德国电信跟投。公司核心技术为文本提示生成AI。
谷歌推出A2UI新标准,让AI能直接生成图形界面元素,如按钮和表单,提升交互体验。传统AI交互依赖文本,处理复杂任务繁琐。A2UI开源项目规范AI生成视觉响应,使客服等场景能即时创建界面,简化操作流程。
基于 Diffusion Transformer 架构的十亿参数文生 3D 动作模型。
Inspix AI是终极AI视频与图像创作平台,可从文本和图像生成视频。
CUTY AI 是一体化视觉内容生成平台,用 AI 创图和视频
基于Google Nano AI,可文本生成、编辑、提升图像质量的AI图像编辑器
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
Baidu
128
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
mradermacher
这是一个专注于网络安全领域的20B参数开源大语言模型,基于GPT-OSS架构,并融合了多个网络安全指令数据集进行微调。模型提供了多种量化版本,便于在资源受限的环境中部署,可用于生成网络安全相关的文本、代码和分析报告。
bartowski
本项目是TheDrummer的Cydonia-24B-v4.3模型的量化版本,使用llama.cpp进行量化处理,旨在提供不同量化类型的模型文件,以满足不同硬件和性能需求。它是一个24B参数的大语言模型,主要用于文本生成任务。
GuangyuanSD
Z-Image-Re-Turbo 是一个基于文本生成图像的模型,它在 Z-Image-De-Turbo 模型的基础上进行了去还原和重新加速优化。该模型旨在兼顾训练时的便利性与推理时的速度,恢复了接近原始 Turbo 模型的快速生成能力,同时保持了与 Z-Image-De-Turbo 相同的训练友好特性,使其能够完美兼容 Z-Image 生态系统中已训练的大量 LoRA 模型。
MaziyarPanahi
这是NousResearch/Hermes-4.3-36B模型的GGUF量化格式版本,由MaziyarPanahi进行量化处理。GGUF是一种高效的模型格式,旨在优化本地部署和推理性能,支持多种量化级别(2位至8位),适用于广泛的文本生成任务。
openbmb
VoxCPM是一款创新的免分词器端到端文本转语音(TTS)系统,通过在连续空间中对语音进行建模,克服了离散分词的局限性。它具备上下文感知语音生成和逼真零样本语音克隆两大核心能力,能够根据文本内容自动调整韵律和风格,并仅需一个简短的参考音频即可克隆说话者的音色、口音和情感。
ss-lab
这是一个基于Meta LLaMA 3 8B模型,使用Unsloth框架进行高效微调,并转换为GGUF格式的轻量级文本生成模型。模型针对Alpaca数据集进行了优化,适用于本地部署和推理,特别适合在资源受限的环境中使用。
jayhuang92
Qwen-Image 是基于 Qwen 系列开发的文本到图像生成模型,支持中英双语输入,在多个评估指标上表现优异,特别适用于追求逼真效果的图像生成场景。
本项目提供了一个基于微软Phi-3.5-mini-instruct模型进行微调的文本生成模型,已转换为GGUF格式,适用于llama.cpp推理框架。模型在philschmid/guanaco-sharegpt-style数据集上进行了微调,优化了指令遵循和对话能力,适用于资源受限环境下的高效文本生成任务。
NewBie-AI
NewBie image Exp0.1 是一个基于 Next-DiT 架构开发的高效图像生成基础模型,专门用于生成高质量的动漫风格图像。它融合了先进的文本编码器和视觉组件,支持自然语言和结构化标签输入,是多角色动漫图像生成的强大工具。
gguf-org
flux2-dev-gguf 是一个基于 FLUX.2-dev 的图像到图像转换模型,专门用于根据文本提示生成特定风格的图像。该模型支持在 ComfyUI 环境中运行,能够将文本描述转换为风格化的视觉内容。
ostris
这是一个基于LoRA技术的文本到图像转换模型,专门用于生成具有法国印象派画家贝尔特·莫里索艺术风格的图像。该模型在FLUX.2-dev基础模型上训练,能够将普通图像或文本描述转换为莫里索风格的画作。
diffusers
FLUX.2-dev是基于NF4量化的DiT和文本编码器的图像生成与编辑模型,提供高质量的图像生成和编辑能力,适用于图像领域的开发应用。
这是squ11z1的Hypnos-i1-8B模型的量化版本,使用llama.cpp工具和特定数据集进行量化处理。该模型基于Llama-3架构,提供多种量化类型选择,支持文本生成任务,适用于推理、对话等多种应用场景。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
noctrex
这是一个基于Huihui-MiroThinker-v1.0-30B模型进行的MXFP4_MOE imatrix量化版本,专门针对文本生成任务优化,在保持模型性能的同时显著减小了模型体积和推理成本。
gia-uh
塞西莉亚FT MS v1是基于塞西莉亚2B v0.1微调的古巴语言模型,专门针对古巴西班牙语进行优化,捕捉古巴语言、文化和社会的细微差别。该模型支持西班牙语和英语,主要用于文本生成任务。
black-forest-labs
FLUX.2 [dev] 是一个拥有320亿参数的校正流变压器模型,专门用于图像生成、编辑和组合任务。该模型在文本到图像生成、单参考编辑和多参考编辑方面处于领先水平,无需微调即可实现角色、对象和风格参考,支持个人、科学和商业用途。
这是对ai-sage的GigaChat3-10B-A1.8B模型进行的量化处理版本,采用llama.cpp的imatrix量化技术,可在不同硬件条件下更高效地运行。模型支持俄语和英语,主要用于文本生成任务。
jayn7
腾讯混元视频1.5模型的量化GGUF版本,专门用于文本到视频生成任务,支持720P高清视频生成,提供多种量化精度版本以优化使用效率。
本项目提供腾讯混元视频1.5文本到视频模型的量化GGUF版本,支持480P视频生成任务,包含蒸馏模型和完整模型两个版本,可与ComfyUI-GGUF等工具配合使用。
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
基于即梦AI的图像生成服务,专为Cursor IDE设计,实现文本描述到图像的生成与保存。
开源短视频自动生成工具,整合文本转语音、自动字幕、背景视频和音乐,从简单文本输入创建专业短视频。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
MemoryMesh是一个为AI模型设计的知识图谱服务器,专注于文本角色扮演游戏和互动叙事。它通过动态模式定义和自动生成工具,帮助AI在对话中维护一致且结构化的记忆,实现更丰富、更动态的交互体验。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
一个基于TypeScript的MCP服务器,集成Google Gemini Pro模型
Loom是一个MCP服务器,支持用户与基础模型协作构建文本,通过短片段迭代生成和选择来优化长文本创作质量。
MIDI MCP服务器是一个通过文本数据生成MIDI音乐文件的工具
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
一个基于MCP协议的模板服务器,集成了OpenAI、Anthropic和EnrichB2B的API功能。
一个基于MCP协议的图像生成服务器,使用Replicate的flux-schnell模型,支持通过文本提示生成图像,并可配置多种参数。
MiniMax-MCP是一个多功能服务器项目,提供文本转语音、视频生成和图像生成等API服务,支持开发者集成高级多媒体功能。
一个基于MongoDB Atlas向量搜索和Voyage AI嵌入技术的文档检索系统,支持语义搜索和文本匹配,包含文档分块、嵌入生成和存储功能。
Scenario.com MCP服务器项目,提供基于文本生成图像和移除图像背景的API服务。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
基于Google Gemini 2.5 Flash API的MCP图像生成与编辑服务器,支持文本生成图像、图像编辑、迭代创作和风格迁移功能
LMStudio-MCP是一个模型控制协议服务器,用于在Claude与本地运行的LM Studio LLM模型之间建立通信桥梁,实现模型健康检查、列表获取及文本生成功能。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的工具,支持多视角重建和远程处理。