宇树科技推出“Embodied Avatar”系统,实现人类远程操控实体机器人。通过高精度动作捕捉和毫秒级远程控制,用户可实时驱动机器人完成拳击、舞蹈等复杂动作,达成“所动即所行”的具身智能体验。核心在于全链路低延迟动作映射技术。
MiniMax Speech 2.6发布,语音合成技术实现突破:延迟低于250毫秒,支持Fluent LoRA一键复刻任意音色,推动语音交互进入实时时代,提升AI产品应用体验。
MiniMax发布新一代语音合成模型Speech 2.6,实现端到端延迟低于250毫秒的实时响应,接近人类对话速度。其革命性Fluent LoRA音色复刻技术显著提升语音自然度和个性化水平,推动语音交互向高自然、低延迟、强定制方向突破发展。
Cartesia公司推出语音AI引擎Sonic-3,号称全球最快最自然的实时对话模型。它通过全新状态空间模型架构实现近零延迟交互,能模拟人类情感、语气及笑声变化,显著提升交流真实感。
使用低延迟语音识别和合成模型与 AI 对话。
一款 21B 通用推理模型,适合低延迟应用。
Cloudflare 推出的用于构建 AI 代理的平台,支持高效自动化任务执行。
DeepEP 是一个针对 Mixture-of-Experts 和专家并行通信的高效通信库。
chatglm
$4.03
Input tokens/M
$7.99
Output tokens/M
128k
Context Length
$0.8
$2
$2.02
$5.98
tencent
32k
openai
$2.88
$11.52
1M
google
$0.58
$2.16
reka-ai
-
minimax
$0.85
$3.4
200k
moonshot
$0.5
8k
bytedance
$4
$16
redponike
MiniMax-M2是一款专为高效编码和智能体工作流打造的混合专家模型,具备2300亿总参数和100亿激活参数。该模型在编码和智能体任务中表现卓越,同时具有低延迟、低成本和高吞吐量的特点,能有效提升工作效率。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
kenpath
Svara-TTS是一款面向印度语言的开源多语言文本转语音模型,支持19种语言(18种印度语言+印度英语)。该模型基于Orpheus风格的离散音频令牌方法构建,旨在普通GPU/CPU上实现清晰、富有表现力且低延迟的语音合成。
gravitee-io
这是一个专门用于压缩短用户提示(≤64个标记)的序列到序列模型,在现代GPU上可实现亚100毫秒的低延迟运行,作为轻量级预处理阶段为高容量大语言模型提供支持。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
Sci-fi-vy
GPT-OSS-20B是OpenAI推出的开放权重模型,专为强大推理、智能体任务和多样化开发者用例设计。该模型具有210亿参数(其中36亿为活跃参数),采用混合专家架构,支持低延迟本地部署和特定场景应用。
professorf
GPT-OSS-20B是OpenAI推出的开放权重模型,拥有210亿参数(其中36亿为活跃参数),专为低延迟、本地部署和特定用例设计。该模型基于harmony响应格式训练,具备强大的推理能力和智能体任务处理能力。
LiquidAI
LFM2-Audio-1.5B是Liquid AI推出的首个端到端音频基础模型,专为低延迟和实时对话设计。该模型仅15亿参数,能够实现无缝的对话交互,其能力可与参数规模大得多的模型相媲美。
0xShonen
GPT-OSS-20B是OpenAI发布的开放权重模型,专为强大的推理、智能体任务和多样化开发者用例设计。该模型具有21B参数(其中3.6B为活跃参数),支持低延迟推理和本地部署,采用Apache 2.0许可证,可自由用于实验、定制和商业部署。
axolotl-ai-co
gpt-oss-20b是OpenAI推出的开放权重模型,拥有210亿参数(其中36亿为活跃参数),专为低延迟、本地部署和特定场景设计。该模型基于harmony响应格式训练,具备强大的推理能力和智能体任务处理能力。
unsloth
GPT-OSS-20b是OpenAI推出的开放权重模型,具备强大的推理能力,采用Apache 2.0许可证,支持多种开发场景。该模型具有低延迟特点,适用于本地或特定使用场景,支持文本生成任务。
gabriellarson
gpt-oss-20b是OpenAI推出的开放权重模型,具备强大的推理能力,适用于代理任务和开发者的多样使用场景。该模型具有低延迟特性,适用于本地或特定场景部署。
Phi-mini-MoE是一个轻量级的专家混合(MoE)模型,适用于英语的商业和研究场景,在资源受限环境和低延迟场景中表现出色。
TEN-framework
TEN VAD 是一个低延迟、轻量级、高性能的流式语音活动检测系统,适用于实时语音处理场景。
RedHatAI
这是一个经过INT8量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat和Neural Magic优化,适用于快速响应和低延迟场景。
这是一个经过INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat (Neural Magic)优化发布,适用于快速响应的对话代理和低延迟推理场景。
maitrix-org
Voila是一个大型语音-语言基础模型家族,旨在提升人机交互体验,支持实时、低延迟的语音交互和多语言处理。
phi-4-quantized.w8a8 是一个经过 INT8 量化优化的语言模型,基于微软 phi-4 模型进行权重量化和激活量化。该模型旨在加速语言模型研究,适用于内存/计算受限环境和低延迟场景,保持接近原始模型的性能表现。
基于MCP协议的低延迟RAG服务,支持本地知识检索和智能摘要,提供双模式检索和模块化架构
一个支持与Claude等LLM进行语音交互的MCP服务器,只需OpenAI API密钥和麦克风/扬声器即可实现实时语音对话。
基于Cloudflare Workers的无服务器PayPal MCP集成,处理API请求、认证和安全支付,具有低延迟特性,适用于Webhooks、支付验证和实时交易,具备可扩展性、轻量级和安全性。
Neglect的Solana DeFi MCP服务器提供对Solana区块链上数十亿笔交易数据的结构化访问,涵盖启动平台、代币、交易和钱包交互等完整DeFi生态数据,支持实时查询和低延迟更新。