Inworld AI发布实时TTS-2语音模型,通过API预览版实现突破。与传统文本转语音不同,该模型能实时感知用户语调、节奏和情感,采用闭环系统架构,无需依赖文字转录,提供更自然流畅的对话体验。
OpenAI在Codex平台推出类似拓麻歌子的桌面悬浮伴侣,以像素风设计回归“桌面宠物”概念。与以往不同,这些小家伙能实时反馈AI模型工作状态,并实现全局浮动显示,陪伴用户“摸鱼”。
亚马逊于4月30日推出“Join the chat”AI音频问答功能,由数字“AI购物专家”驱动,将商品详情页的“阅读模式”升级为“对话模式”,让用户通过语音实时获取信息,提升电商交互效率与自然度。
Adobe发布Photoshop和Lightroom重大更新,将生成式AI扩展至3D空间处理。核心亮点是“旋转对象”工具,允许用户在3D空间中实时旋转、倾斜或翻转2D素材,自动调整透视角度和环境视觉逻辑,显著提升合成创作效率与效果。
实时销售支持平台,为销售代表提供AI指导,提升销售效率
实时AI代理安全与数据保护,防止敏感数据泄露至AI工具。
Slock是实时协作平台,人类与AI代理作为队友共同协作。
灵活的AI面试助手,可本地或云端运行,提供实时会议笔记与AI协助。
Xai
$1.4
输入tokens/百万
$3.5
输出tokens/百万
2k
上下文长度
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
-
Baidu
128
$6
$24
256
$8
$240
52
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
pnnbao-ump
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
LiquidAI
LFM2-Audio-1.5B是Liquid AI推出的首个端到端音频基础模型,专为低延迟和实时对话设计。该模型仅15亿参数,能够实现无缝的对话交互,其能力可与参数规模大得多的模型相媲美。
trentmkelly
用于检测Reddit评论中AI生成内容的二分类文本分类模型,支持浏览器扩展实时检测。
cortexso
Mistral 7B是Mistral AI推出的一款拥有70亿参数的大语言模型,专为高效和高性能而设计,适合需要快速响应的实时应用场景。
Or4cl3-1
CSUMLM是整合多模态AI引擎和大语言模型优势的前沿人工智能系统,具备多模态处理、复杂语言理解和实时学习能力。
facebook
Meta AI开发的高保真实时神经音频编解码器,专为MusicGen项目训练
EnCodec是由Meta AI开发的实时高保真神经音频编解码器,支持多种带宽配置和流式处理。
EnCodec是由Meta AI开发的高保真实时神经音频编解码器,采用端到端训练方式,支持多种带宽设置。
Exa MCP Server是一个为AI助手(如Claude)提供网络搜索功能的服务器,通过Exa AI搜索API实现实时、安全的网络信息获取。
Airweave是一个开源的人工智能代理和RAG系统的上下文检索层,它连接并同步各种应用程序、工具和数据库的数据,通过统一的搜索接口为AI代理提供相关、实时、多源的上下文信息。
UnityMCP是一个Unity编辑器插件,实现模型上下文协议(MCP),提供Unity与AI助手的无缝集成,包括实时状态监控、远程命令执行和日志功能。
Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务,通过Model Context Protocol直接集成到提示中,解决LLM使用过时信息的问题。
一个基于Playwright的Node.js工具,能够绕过搜索引擎反爬机制执行Google搜索并提取结果,可作为命令行工具或MCP服务器为AI助手提供实时搜索能力。
一个轻量级的MCP服务器,为AI助手如Claude提供实时天气数据查询和解析功能。支持本地和远程两种部署方式,包含Docker容器化方案。
Docfork是一个为AI代码编辑器提供最新文档的MCP服务,支持9000+库的文档同步,确保开发者获取准确、实时的API文档和代码示例。
ReActMCP Web Search是一个集成Exa API的MCP服务器,为AI助手提供实时网页搜索功能,支持基础搜索和高级过滤选项,返回Markdown格式的结果。
一个基于规范驱动开发的AI辅助软件开发工作流工具,提供实时仪表盘监控项目进度和文档管理。
Orchestro是一个AI开发协调平台,连接产品经理、开发者和AI,将产品想法转化为生产代码。它通过任务分解、依赖跟踪、模式学习和实时进度可视化,协调整个开发流程,提供项目管理、任务执行、知识库和实时仪表板等功能。
Nchan MCP Transport是一个高性能的WebSocket/SSE传输层和网关,专为Anthropic的MCP(模型上下文协议)设计,支持实时、可扩展的AI集成。
一个追踪加密货币相关股票实时数据的MCP服务器,帮助AI代理分析区块链投资机会。
TypeScript类型检查和代码导航MCP服务器,通过tsgo的LSP为AI编程代理提供实时类型检查和代码导航功能
InsightFlow是一个结合实时数据处理与AI智能分析的先进分析平台,通过Model Context Protocol(MCP)实现高级AI能力,并与Claude AI无缝集成,提供智能数据分析和决策支持。
一个AI驱动的视频编码辅助工具,通过MCP服务器连接Claude AI,提供智能错误解析、实时监控和自动化解决方案。
Selector AI的MCP协议实现,提供实时交互的AI服务
一个基于Model Context Protocol (MCP)和Server-Sent Events (SSE)的服务器,集成Brave搜索API,为AI模型和客户端提供实时流式搜索功能。
Unity MCP服务器是一个基于C#的模型上下文协议(MCP)服务,用于连接Unity编辑器与外部大型语言模型(LLM)或云端AI代理,实现实时自动化与智能交互。
Cursor MCP是一个实现Claude AI与桌面应用无缝集成的工具,通过Cursor IDE桥接AI能力与开发工作流,提供实时编程辅助和上下文感知的代码建议。
一个基于Spring Boot和Spring AI的股票数据服务项目,提供股票实时交易信息、分时价格和公司详情查询功能。