谷歌推出基于Gemini 3.1Pro架构的Deep Research与Deep Research Max两款AI研究代理,现已开放付费预览。它们旨在自动化复杂研究流程,推动AI从简单搜索向具备深度推理的“长时计算”演进。标准版注重高效低延迟,适合实时对话;Max版则优先研究深度与准确性,适用于复杂任务。
千问AI眼镜首次OTA升级,新增“多人对话AI克隆同传”功能,可精准克隆发言者音色,实现低延迟同声传译,打破跨语言沟通边界,提升商务洽谈和跨国旅行体验。
微软开源VibeVoice语音AI模型,支持ASR和TTS,具备长音频处理、多说话人对话生成及实时低延迟特性,已在GitHub获27K星。采用MIT协议,支持本地部署,无需云端费用,旨在推动语音合成领域创新。
谷歌翻译的“实时翻译”功能现已支持iOS系统,用户只需搭配任意耳机即可在移动设备上实现低延迟跨语言对话,大幅降低了使用门槛。
OfoxAI统一大模型API网关,一个API接入100+模型,低延迟易集成。
LPM 1.0是17B参数模型,实时生成全双工AI视频,低延迟身份一致。
FinSignals提供实时金融情绪分析API,7分类头,低延迟,有免费层。
Mac端私密语音转文本应用,80ms低延迟,三引擎可选,本地处理
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
$7.7
$30.8
200
Anthropic
$7
$35
$17.5
$0.7
Alibaba
-
Baidu
128
$8
$240
52
$15.8
$12.7
64
Bytedance
$0.8
$2
$0.15
$1.5
256
Xai
$1.4
$10.5
32
$0.4
$8.75
$70
400
redponike
MiniMax-M2是一款专为高效编码和智能体工作流打造的混合专家模型,具备2300亿总参数和100亿激活参数。该模型在编码和智能体任务中表现卓越,同时具有低延迟、低成本和高吞吐量的特点,能有效提升工作效率。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
kenpath
Svara-TTS是一款面向印度语言的开源多语言文本转语音模型,支持19种语言(18种印度语言+印度英语)。该模型基于Orpheus风格的离散音频令牌方法构建,旨在普通GPU/CPU上实现清晰、富有表现力且低延迟的语音合成。
gravitee-io
这是一个专门用于压缩短用户提示(≤64个标记)的序列到序列模型,在现代GPU上可实现亚100毫秒的低延迟运行,作为轻量级预处理阶段为高容量大语言模型提供支持。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
rtr46
meiki.text.detect.v0.1是专门针对视频游戏和漫画文本检测的高精度、低延迟OCR模型,在日语相关内容上表现优异。该模型基于D-FINE检测器架构,采用MobileNet v4 small作为骨干网络,提供两种分辨率变体以适应不同应用场景。
nvidia
Nemotron-Flash-3B 是英伟达推出的新型混合小型语言模型,专门针对实际应用中的低延迟需求设计。该模型在数学、编码和常识推理等任务中展现出卓越性能,同时具备出色的小批量低延迟和大批量高吞吐量特性。
Sci-fi-vy
GPT-OSS-20B是OpenAI推出的开放权重模型,专为强大推理、智能体任务和多样化开发者用例设计。该模型具有210亿参数(其中36亿为活跃参数),采用混合专家架构,支持低延迟本地部署和特定场景应用。
professorf
GPT-OSS-20B是OpenAI推出的开放权重模型,拥有210亿参数(其中36亿为活跃参数),专为低延迟、本地部署和特定用例设计。该模型基于harmony响应格式训练,具备强大的推理能力和智能体任务处理能力。
LiquidAI
LFM2-Audio-1.5B是Liquid AI推出的首个端到端音频基础模型,专为低延迟和实时对话设计。该模型仅15亿参数,能够实现无缝的对话交互,其能力可与参数规模大得多的模型相媲美。
0xShonen
GPT-OSS-20B是OpenAI发布的开放权重模型,专为强大的推理、智能体任务和多样化开发者用例设计。该模型具有21B参数(其中3.6B为活跃参数),支持低延迟推理和本地部署,采用Apache 2.0许可证,可自由用于实验、定制和商业部署。
axolotl-ai-co
gpt-oss-20b是OpenAI推出的开放权重模型,拥有210亿参数(其中36亿为活跃参数),专为低延迟、本地部署和特定场景设计。该模型基于harmony响应格式训练,具备强大的推理能力和智能体任务处理能力。
unsloth
GPT-OSS-20b是OpenAI推出的开放权重模型,具备强大的推理能力,采用Apache 2.0许可证,支持多种开发场景。该模型具有低延迟特点,适用于本地或特定使用场景,支持文本生成任务。
gabriellarson
gpt-oss-20b是OpenAI推出的开放权重模型,具备强大的推理能力,适用于代理任务和开发者的多样使用场景。该模型具有低延迟特性,适用于本地或特定场景部署。
Phi-mini-MoE是一个轻量级的专家混合(MoE)模型,适用于英语的商业和研究场景,在资源受限环境和低延迟场景中表现出色。
Nemotron-Flash-3B是英伟达开发的新型混合小型语言模型,专为低延迟应用设计,在数学、编码和常识推理等任务上表现出色,具有优异的性能和效率平衡。
TEN-framework
TEN VAD 是一个低延迟、轻量级、高性能的流式语音活动检测系统,适用于实时语音处理场景。
RedHatAI
这是一个经过INT8量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat和Neural Magic优化,适用于快速响应和低延迟场景。
这是一个经过INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型,由Red Hat (Neural Magic)优化发布,适用于快速响应的对话代理和低延迟推理场景。
RegenNexus UAP是一个通用适配器协议,用于连接设备、机器人、应用和AI代理,提供低延迟、高安全性的通信,支持多种硬件和MCP集成。
基于MCP协议的低延迟RAG服务,支持本地知识检索和智能摘要,提供双模式检索和模块化架构
一个支持与Claude等LLM进行语音交互的MCP服务器,只需OpenAI API密钥和麦克风/扬声器即可实现实时语音对话。
Mnemo是一个为AI助手提供扩展记忆的MCP服务,通过Gemini的上下文缓存功能,允许助手加载大型代码库、文档、PDF等资料并进行自然语言查询,实现低成本、低延迟的完美信息召回。
Shebe是一个基于BM25算法的快速代码全文搜索服务,专为Claude Code设计,提供低延迟、高效率的代码内容检索,支持多语言代码库搜索和符号引用查找。
基于Cloudflare Workers的无服务器PayPal MCP集成,处理API请求、认证和安全支付,具有低延迟特性,适用于Webhooks、支付验证和实时交易,具备可扩展性、轻量级和安全性。
Neglect的Solana DeFi MCP服务器提供对Solana区块链上数十亿笔交易数据的结构化访问,涵盖启动平台、代币、交易和钱包交互等完整DeFi生态数据,支持实时查询和低延迟更新。