最好的低延迟 AI工具模型_精选低延迟资讯 - AIBase

AI资讯

谷歌推出 Gemini3.1Pro 深度研究代理:支持 MCP 协议与多模态自主研究

谷歌推出基于Gemini 3.1Pro架构的Deep Research与Deep Research Max两款AI研究代理，现已开放付费预览。它们旨在自动化复杂研究流程，推动AI从简单搜索向具备深度推理的“长时计算”演进。标准版注重高效低延迟，适合实时对话；Max版则优先研究深度与准确性，适用于复杂任务。

谷歌推出 Gemini3.1Pro 深度研究代理:支持 MCP 协议与多模态自主研究

千问 AI 眼镜迎来首次 OTA 升级，增强多项生活服务功能

千问AI眼镜首次OTA升级，新增“多人对话AI克隆同传”功能，可精准克隆发言者音色，实现低延迟同声传译，打破跨语言沟通边界，提升商务洽谈和跨国旅行体验。

19k 2 小时前

千问 AI 眼镜迎来首次 OTA 升级，增强多项生活服务功能

微软开源前沿语音 AI 家族 VibeVoice：单次处理 90 分钟多说话人对话，GitHub 迅速获 27K Star

微软开源VibeVoice语音AI模型，支持ASR和TTS，具备长音频处理、多说话人对话生成及实时低延迟特性，已在GitHub获27K星。采用MIT协议，支持本地部署，无需云端费用，旨在推动语音合成领域创新。

18.4k 23 小时前

微软开源前沿语音 AI 家族 VibeVoice：单次处理 90 分钟多说话人对话，GitHub 迅速获 27K Star

谷歌 Live Translate 登陆 iOS:Gemini 加持告别机械音支持70余种语言实时翻译

谷歌翻译的“实时翻译”功能现已支持iOS系统，用户只需搭配任意耳机即可在移动设备上实现低延迟跨语言对话，大幅降低了使用门槛。

20.4k 14 小时前

谷歌 Live Translate 登陆 iOS:Gemini 加持告别机械音支持70余种语言实时翻译

AI产品

OfoxAI

OfoxAI

OfoxAI统一大模型API网关，一个API接入100+模型，低延迟易集成。

LPM 1.0

LPM 1.0

LPM 1.0是17B参数模型，实时生成全双工AI视频，低延迟身份一致。

FinSignals

FinSignals

FinSignals提供实时金融情绪分析API，7分类头，低延迟，有免费层。

Dictato

Dictato

Mac端私密语音转文本应用，80ms低延迟，三引擎可选，本地处理

语音转文本

模型

GPT-4.1 mini

Openai

GPT-4.1 mini

$2.8

输入tokens/百万

$11.2

输出tokens/百万

1k

上下文长度

Gemini 2.0 Flash-Lite

Google

Gemini 2.0 Flash-Lite

$0.49

输入tokens/百万

$2.1

输出tokens/百万

1k

上下文长度

o3-mini

Openai

o3-mini

$7.7

输入tokens/百万

$30.8

输出tokens/百万

200

上下文长度

Claude Haiku 4.5

Anthropic

Claude Haiku 4.5

$7

输入tokens/百万

$35

输出tokens/百万

200

上下文长度

Gemini 2.5 Flash

Google

Gemini 2.5 Flash

$2.1

输入tokens/百万

$17.5

输出tokens/百万

1k

上下文长度

Gemini 2.5 Flash-Lite

Google

Gemini 2.5 Flash-Lite

$0.7

输入tokens/百万

$2.8

输出tokens/百万

1k

上下文长度

qwen-image-plus

Alibaba

qwen-image-plus

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

Qianfan-Lightning

Baidu

Qianfan-Lightning

-

输入tokens/百万

-

输出tokens/百万

128

上下文长度

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

qwen3-livetranslate-flaltimeash-re-2025-09-22

$8

输入tokens/百万

$240

输出tokens/百万

52

上下文长度

qwen3-omni-30b-a3b-captioner

Alibaba

qwen3-omni-30b-a3b-captioner

$15.8

输入tokens/百万

$12.7

输出tokens/百万

64

上下文长度

qwen3-tts-flash

Alibaba

qwen3-tts-flash

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

qwen3-tts-flash-realtime

Alibaba

qwen3-tts-flash-realtime

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

Doubao-1.5-pro-32k

Bytedance

Doubao-1.5-pro-32k

$0.8

输入tokens/百万

$2

输出tokens/百万

128

上下文长度

Doubao-Seed-1.6-flash

Bytedance

Doubao-Seed-1.6-flash

$0.15

输入tokens/百万

$1.5

输出tokens/百万

256

上下文长度

qwen3-asr-flash

Alibaba

qwen3-asr-flash

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

Doubao-Seedance-1.0-pro

Bytedance

Doubao-Seedance-1.0-pro

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

Grok Code Fast 1

Xai

Grok Code Fast 1

$1.4

输入tokens/百万

$10.5

输出tokens/百万

256

上下文长度

Qwen3-1.7B

Alibaba

Qwen3-1.7B

-

输入tokens/百万

-

输出tokens/百万

32

上下文长度

gpt-oss-20b

Openai

gpt-oss-20b

$0.4

输入tokens/百万

-

输出tokens/百万

128

上下文长度

GPT-5

Openai

GPT-5

$8.75

输入tokens/百万

$70

输出tokens/百万

400

上下文长度

MCP

regennexus

Regennexus

RegenNexus UAP是一个通用适配器协议，用于连接设备、机器人、应用和AI代理，提供低延迟、高安全性的通信，支持多种硬件和MCP集成。

mcp-rag

Mcp Rag

基于MCP协议的低延迟RAG服务，支持本地知识检索和智能摘要，提供双模式检索和模块化架构

voice-mcp

Voice Mcp

一个支持与Claude等LLM进行语音交互的MCP服务器，只需OpenAI API密钥和麦克风/扬声器即可实现实时语音对话。

mnemo

Mnemo

Mnemo是一个为AI助手提供扩展记忆的MCP服务，通过Gemini的上下文缓存功能，允许助手加载大型代码库、文档、PDF等资料并进行自然语言查询，实现低成本、低延迟的完美信息召回。

shebe

Shebe

Shebe是一个基于BM25算法的快速代码全文搜索服务，专为Claude Code设计，提供低延迟、高效率的代码内容检索，支持多语言代码库搜索和符号引用查找。

PayPal-MCP

PayPal MCP

基于Cloudflare Workers的无服务器PayPal MCP集成，处理API请求、认证和安全支付，具有低延迟特性，适用于Webhooks、支付验证和实时交易，具备可扩展性、轻量级和安全性。

solana-mcp

Solana Mcp

Neglect的Solana DeFi MCP服务器提供对Solana区块链上数十亿笔交易数据的结构化访问，涵盖启动平台、代币、交易和钱包交互等完整DeFi生态数据，支持实时查询和低延迟更新。

AIBase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2026AIBase

商务合作网站地图