初创公司Resemble AI发布开源语音模型“Chatterbox Turbo”,挑战行业巨头。该模型仅需5秒音频即可克隆语音,延迟低至150毫秒,适用于实时AI代理、客服、游戏角色等场景,性能显著提升。
清华大学TSAIL实验室与生数科技联合开源视频生成加速框架TurboDiffusion,将AI视频扩散模型的推理速度提升100至200倍,视觉质量几乎无损。该技术针对现有开源模型进行深度优化,在单张RTX 5090显卡上实现从分钟级到秒级的实时生成,标志着AI视频创作进入新时代。
阿里巴巴开源Fun-Audio-Chat-8B语音大模型,主打超低延迟与自然交互,性能媲美GPT-4o Audio等闭源模型。它具备实时理解和情感感知能力,旨在成为真正的AI语音伙伴。
钉钉发布企业级AI硬件DingTalk Real,旨在为企业“Agent”角色提供智能终端支持。该设备作为AgentOS执行终端,具备读取内部数据、实时处理及实体交互三大核心功能,致力于改变传统设备服务模式,提升企业内部网络运作效率。
Lensmor是AI驱动的竞争情报工具,可实时监测对手网站变化并提供行动方案
AI LinkedIn Post Coach,实时评分、改进帖子,助你自信发布。
Ark的主动式AI代理从创意到融资及日常运营提供实时建议与战略洞察
Reflection是一款AI日记应用和心理健康教练,提供实时指导与见解。
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
-
Baidu
128
$6
$24
256
$8
$240
52
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
pnnbao-ump
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
LiquidAI
LFM2-Audio-1.5B是Liquid AI推出的首个端到端音频基础模型,专为低延迟和实时对话设计。该模型仅15亿参数,能够实现无缝的对话交互,其能力可与参数规模大得多的模型相媲美。
trentmkelly
用于检测Reddit评论中AI生成内容的二分类文本分类模型,支持浏览器扩展实时检测。
cortexso
Mistral 7B是Mistral AI推出的一款拥有70亿参数的大语言模型,专为高效和高性能而设计,适合需要快速响应的实时应用场景。
Or4cl3-1
CSUMLM是整合多模态AI引擎和大语言模型优势的前沿人工智能系统,具备多模态处理、复杂语言理解和实时学习能力。
facebook
Meta AI开发的高保真实时神经音频编解码器,专为MusicGen项目训练
EnCodec是由Meta AI开发的实时高保真神经音频编解码器,支持多种带宽配置和流式处理。
EnCodec是由Meta AI开发的高保真实时神经音频编解码器,采用端到端训练方式,支持多种带宽设置。
Exa MCP Server是一个为AI助手(如Claude)提供网络搜索功能的服务器,通过Exa AI搜索API实现实时、安全的网络信息获取。
UnityMCP是一个Unity编辑器插件,实现模型上下文协议(MCP),提供Unity与AI助手的无缝集成,包括实时状态监控、远程命令执行和日志功能。
Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务,通过Model Context Protocol直接集成到提示中,解决LLM使用过时信息的问题。
一个基于Playwright的Node.js工具,能够绕过搜索引擎反爬机制执行Google搜索并提取结果,可作为命令行工具或MCP服务器为AI助手提供实时搜索能力。
一个轻量级的MCP服务器,为AI助手如Claude提供实时天气数据查询和解析功能。支持本地和远程两种部署方式,包含Docker容器化方案。
Docfork是一个为AI代码编辑器提供最新文档的MCP服务,支持9000+库的文档同步,确保开发者获取准确、实时的API文档和代码示例。
ReActMCP Web Search是一个集成Exa API的MCP服务器,为AI助手提供实时网页搜索功能,支持基础搜索和高级过滤选项,返回Markdown格式的结果。
一个基于规范驱动开发的AI辅助软件开发工作流工具,提供实时仪表盘监控项目进度和文档管理。
一个基于Arbiscan API和Claude AI的Arbitrum区块链实时数据分析MCP服务器。
Perplexity MCP Server是一个用Go编写的中间件服务器,为AI助手(如Claude和Cursor)提供无缝访问Perplexity API的能力,包括实时搜索和复杂推理功能。
一个AI驱动的视频编码辅助工具,通过MCP服务器连接Claude AI,提供智能错误解析、实时监控和自动化解决方案。
一个基于Model Context Protocol (MCP)和Server-Sent Events (SSE)的服务器,集成Brave搜索API,为AI模型和客户端提供实时流式搜索功能。
Selector AI的MCP协议实现,提供实时交互的AI服务
Cursor MCP是一个实现Claude AI与桌面应用无缝集成的工具,通过Cursor IDE桥接AI能力与开发工作流,提供实时编程辅助和上下文感知的代码建议。
InsightFlow是一个结合实时数据处理与AI智能分析的先进分析平台,通过Model Context Protocol(MCP)实现高级AI能力,并与Claude AI无缝集成,提供智能数据分析和决策支持。
一个追踪加密货币相关股票实时数据的MCP服务器,帮助AI代理分析区块链投资机会。
Unity MCP服务器是一个基于C#的模型上下文协议(MCP)服务,用于连接Unity编辑器与外部大型语言模型(LLM)或云端AI代理,实现实时自动化与智能交互。
GeoFS MCP服务器是一个为GeoFS飞行模拟器设计的模型上下文协议服务器,通过HTTP和WebSocket接口让AI模型能够控制飞机并获取实时飞行数据。
一个基于Spring Boot和Spring AI的股票数据服务项目,提供股票实时交易信息、分时价格和公司详情查询功能。
Nchan MCP Transport是一个高性能的WebSocket/SSE传输层和网关,专为Anthropic的MCP(模型上下文协议)设计,支持实时、可扩展的AI集成。