阿里通义千问团队开源Qwen3-TTS系列语音生成模型,采用端到端架构,支持秒级音色克隆、自然语言音色设计和实时流式输出。其核心创新Dual-Track双轨混合流式生成机制结合离散多码本语言模型,实现极致低延迟,大幅降低实时应用门槛。
Inworld发布TTS-1.5文本转语音模型,以自然、富有表现力的实时语音为亮点。该模型支持多语言,延迟低于250毫秒,使用成本约每分钟0.005美元,比同类产品便宜25倍,有望吸引广泛用户。
OpenAI与芯片制造商Cerebras达成多年合作,旨在通过专用芯片技术提升AI响应速度。协议总价值超100亿美元,Cerebras将在2028年前向OpenAI提供高达750兆瓦的计算能力。
初创公司Resemble AI发布开源语音模型“Chatterbox Turbo”,挑战行业巨头。该模型仅需5秒音频即可克隆语音,延迟低至150毫秒,适用于实时AI代理、客服、游戏角色等场景,性能显著提升。
使用低延迟语音识别和合成模型与 AI 对话。
一款 21B 通用推理模型,适合低延迟应用。
Cloudflare 推出的用于构建 AI 代理的平台,支持高效自动化任务执行。
DeepEP 是一个针对 Mixture-of-Experts 和专家并行通信的高效通信库。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
$7.7
$30.8
200
Anthropic
$7
$35
$17.5
$0.7
Alibaba
-
Baidu
128
$8
$240
52
$15.8
$12.7
64
Bytedance
$0.8
$2
$0.15
$1.5
256
Xai
$1.4
$10.5
32
$0.4
$8.75
$70
400
redponike
MiniMax-M2是一款专为高效编码和智能体工作流打造的混合专家模型,具备2300亿总参数和100亿激活参数。该模型在编码和智能体任务中表现卓越,同时具有低延迟、低成本和高吞吐量的特点,能有效提升工作效率。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
kenpath
Svara-TTS是一款面向印度语言的开源多语言文本转语音模型,支持19种语言(18种印度语言+印度英语)。该模型基于Orpheus风格的离散音频令牌方法构建,旨在普通GPU/CPU上实现清晰、富有表现力且低延迟的语音合成。
gravitee-io
这是一个专门用于压缩短用户提示(≤64个标记)的序列到序列模型,在现代GPU上可实现亚100毫秒的低延迟运行,作为轻量级预处理阶段为高容量大语言模型提供支持。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
rtr46
meiki.text.detect.v0.1是专门针对视频游戏和漫画文本检测的高精度、低延迟OCR模型,在日语相关内容上表现优异。该模型基于D-FINE检测器架构,采用MobileNet v4 small作为骨干网络,提供两种分辨率变体以适应不同应用场景。
nvidia
Nemotron-Flash-3B 是英伟达推出的新型混合小型语言模型,专门针对实际应用中的低延迟需求设计。该模型在数学、编码和常识推理等任务中展现出卓越性能,同时具备出色的小批量低延迟和大批量高吞吐量特性。
Sci-fi-vy
GPT-OSS-20B是OpenAI推出的开放权重模型,专为强大推理、智能体任务和多样化开发者用例设计。该模型具有210亿参数(其中36亿为活跃参数),采用混合专家架构,支持低延迟本地部署和特定场景应用。
professorf
GPT-OSS-20B是OpenAI推出的开放权重模型,拥有210亿参数(其中36亿为活跃参数),专为低延迟、本地部署和特定用例设计。该模型基于harmony响应格式训练,具备强大的推理能力和智能体任务处理能力。
LiquidAI
LFM2-Audio-1.5B是Liquid AI推出的首个端到端音频基础模型,专为低延迟和实时对话设计。该模型仅15亿参数,能够实现无缝的对话交互,其能力可与参数规模大得多的模型相媲美。
0xShonen
GPT-OSS-20B是OpenAI发布的开放权重模型,专为强大的推理、智能体任务和多样化开发者用例设计。该模型具有21B参数(其中3.6B为活跃参数),支持低延迟推理和本地部署,采用Apache 2.0许可证,可自由用于实验、定制和商业部署。
axolotl-ai-co
gpt-oss-20b是OpenAI推出的开放权重模型,拥有210亿参数(其中36亿为活跃参数),专为低延迟、本地部署和特定场景设计。该模型基于harmony响应格式训练,具备强大的推理能力和智能体任务处理能力。
unsloth
GPT-OSS-20b是OpenAI推出的开放权重模型,具备强大的推理能力,采用Apache 2.0许可证,支持多种开发场景。该模型具有低延迟特点,适用于本地或特定使用场景,支持文本生成任务。
gabriellarson
gpt-oss-20b是OpenAI推出的开放权重模型,具备强大的推理能力,适用于代理任务和开发者的多样使用场景。该模型具有低延迟特性,适用于本地或特定场景部署。
Phi-mini-MoE是一个轻量级的专家混合(MoE)模型,适用于英语的商业和研究场景,在资源受限环境和低延迟场景中表现出色。
Nemotron-Flash-3B是英伟达开发的新型混合小型语言模型,专为低延迟应用设计,在数学、编码和常识推理等任务上表现出色,具有优异的性能和效率平衡。
TEN-framework
TEN VAD 是一个低延迟、轻量级、高性能的流式语音活动检测系统,适用于实时语音处理场景。
RedHatAI
这是一个经过INT8量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat和Neural Magic优化,适用于快速响应和低延迟场景。
这是一个经过INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat (Neural Magic)优化发布,适用于快速响应的对话代理和低延迟推理场景。
基于MCP协议的低延迟RAG服务,支持本地知识检索和智能摘要,提供双模式检索和模块化架构
RegenNexus UAP是一个通用适配器协议,用于连接设备、机器人、应用和AI代理,提供低延迟、高安全性的通信,支持多种硬件和MCP集成。
一个支持与Claude等LLM进行语音交互的MCP服务器,只需OpenAI API密钥和麦克风/扬声器即可实现实时语音对话。
Mnemo是一个为AI助手提供扩展记忆的MCP服务,通过Gemini的上下文缓存功能,允许助手加载大型代码库、文档、PDF等资料并进行自然语言查询,实现低成本、低延迟的完美信息召回。
Shebe是一个基于BM25算法的快速代码全文搜索服务,专为Claude Code设计,提供低延迟、高效率的代码内容检索,支持多语言代码库搜索和符号引用查找。
基于Cloudflare Workers的无服务器PayPal MCP集成,处理API请求、认证和安全支付,具有低延迟特性,适用于Webhooks、支付验证和实时交易,具备可扩展性、轻量级和安全性。
Neglect的Solana DeFi MCP服务器提供对Solana区块链上数十亿笔交易数据的结构化访问,涵盖启动平台、代币、交易和钱包交互等完整DeFi生态数据,支持实时查询和低延迟更新。