Deepgram发布了名为Aura的文本转语音模型,旨在满足实时语音AI代理需求。Aura通过提供更贴近人类声音的对话体验,包括及时回应和自然语音填充词汇,解决了语音AI供应商的速度、成本和对话质量等问题。Deepgram希望通过Aura成为实时、对话式语音AI代理的完整平台,提高高吞吐量领域的效率,计划于明年初正式发布。
相关AI新闻推荐

颠覆性开源 TTS 模型 Dia 发布:情绪、非语言提示全支持,媲美真人对话
一家名为 Nari Labs 的两人创业公司发布了 Dia,这是一个拥有16亿参数的文本转语音 (TTS) 模型,旨在直接从文本提示生成自然对话。其联合创始人 Toby Kim 声称,Dia 的性能超越了 ElevenLabs 等竞争对手的专有产品以及谷歌的 NotebookLM AI 播客生成功能,并可能对 OpenAI 近期发布的 gpt-4o-mini-tts 构成威胁。Kim 在社交媒体 X 上表示,Dia 在质量上可与 NotebookLM 的播客功能媲美,并优于 ElevenLabs Studio 和 Sesame 的开放模型。他透露,该模型是在“零资金”的情况下构建的,并强调他们并非一开始就是人工

微软 Edge 浏览器推出免费 Copilot Vision 功能,AI 助手实时解读屏幕内容
近日,微软在其 Edge 浏览器中免费上线了全新的 AI 助手功能 “Copilot Vision”。这一功能的推出为用户提供了更为智能的操作体验,让用户可以通过语音与 AI 助手进行互动,实时解读屏幕内容,帮助用户完成各项任务。根据微软人工智能首席执行官穆斯塔法・苏莱曼的介绍,Copilot Vision 是一种基于语音的助手功能。用户使用时只需启用该功能,就能够让 Copilot Vision “看到” 用户屏幕上显示的内容。例如,在烹饪过程中,用户可以请 Copilot Vision 指导他们按照食谱操作,或者在求职时让它解

Anthropic或将推出语音AI助手,Claude将支持三种声音模式
据彭博社报道,人工智能公司 Anthropic 正在积极准备推出其新的语音 AI 助手,该助手将集成在其 AI 聊天机器人 Claude 中,预计将在本月内正式发布。此项新功能将使用户能够通过语音与 Claude 进行互动,提升人机交流的便捷性与自然性。据悉,Anthropic 计划推出三种不同的英语语音模式,分别命名为 Airy、Mellow 和 Buttery。这三种声音各具特色,旨在为用户提供更加多样化和个性化的交流体验。这一消息最早由应用研究员 M1Astra 在 Anthropic 的 iOS 应用中发现,随后得到了彭博社的确认。Anthropic 的

字节跳动在Hugging Face发布MegaTTS3:轻量化语音合成新突破
北京——字节跳动(ByteDance)近日在人工智能开源社区Hugging Face上正式发布了其最新的文本转语音(TTS)模型MegaTTS3。这一发布迅速引起了全球AI研究者和开发者的关注,因其在轻量化设计和多语言支持方面的突破性表现。根据技术社区反馈和官方信息,MegaTTS3 被誉为语音合成领域的一次重要进步。MegaTTS3 的核心亮点MegaTTS3 是一款由字节跳动与浙江大学合作开发的开源语音合成工具,其主干模型仅包含0. 45 亿个参数,相较于传统大型TTS模型显得异常轻量。这一设计不仅降低了计算资源需求,

MiniMax Audio推Speech- 02语音模型,一次性可以输入20万字符
备受关注的音频技术创新者MiniMax Audio正式发布了其全新的Speech-02系列语音模型,支持30多种语音,一次性可以输入20万字符。为用户带来更真实、更流畅、更便捷的音频体验。全新的Speech-02系列是本次更新的核心亮点。据官方介绍,该系列在多语言覆盖能力上实现了显著提升,能够更准确、更地道地呈现多种语言的发音。更令人惊喜的是,Speech-02的人声相似度高达99%,这意味着合成的语音听起来更加自然、贴近真人. 此外,该模型还实现了零节奏故障,彻底解决了音频播放过程中可能出现的

ElevenLabs发布全球首款犬类AI文本转语音模型“Text To Bark”
近日,人工智能音频技术领域的先锋企业ElevenLabs宣布推出全球首款专为犬类设计的AI文本转语音模型“Text To Bark”,引发了科技界和宠物爱好者的广泛关注。这一创新技术号称能够将人类输入的文字转化为高度逼真的狗吠声,据称其真实度之高,甚至有95%的狗无法分辨这些声音是由AI生成而非真实犬类发出的。此举被视为推动人类与宠物之间“沟通”的一次大胆尝试,尽管狗狗可能仍无法理解人类的具体意图,但这一技术至少让人类能够以“狗语”表达自己。据介绍,“Text To Bark”模型的

Orpheus TTS:情感表达贴近人类的新一代TTS模型
3月19日,一款名为Orpheus TTS的开源文本转语音(TTS)模型正式亮相。这款模型以其接近人类的情感表达、自然流畅的语音效果以及超低延迟的实时输出流特性,迅速引起关注。据悉,Orpheus TTS在实时对话场景中表现出色,有望为智能语音交互带来新突破。Orpheus TTS主打低延迟和高情感表现,其核心特点包括: - **超低延迟**:默认延迟约200毫秒,通过输入流与模型的KV缓存优化,可将延迟压缩至25-50毫秒,满足实时对话需求。 - **情感表达**:语音输出自然流畅,能够贴近人类情感,支持丰富的语

谷歌云重磅推出高清语音模型 Chirp 3,支持248种声音
谷歌云在位于伦敦的 DeepMind 总部举行了一场会,正式推出其高清语模型 Chirp3。该模型通过 Vertex AI 统一机器学习平台向开发者开放,提供了丰富的开发工具,助力程序的创新。Chirp3支持248种不同的声音,并可用31种语言进行语音合成。开发者可以利用这一模型创建多种应用,如智能语音助手、有声读物和视频配音等。谷歌表示,Chirp3的语音功能能够捕捉人类语调的细微差别,使得对话更加生动和引人入胜。除了使用现成的语音,用户还可以通过谷歌云的文本转语音 API 创建自定义语音。然

Spark-TTS:用AI让声音“克隆”和“定制”成为现实!
在科技飞速发展的今天,人工智能已经渗透到我们生活的方方面面,从智能语音助手到各种自动化服务,AI正在以一种前所未有的方式改变我们的生活。今天,我要给大家介绍一项超级酷炫的技术——Spark-TTS,一个基于Qwen2.5模型的高效文本转语音系统。它不仅能“克隆”你的声音,还能根据你的需求“定制”出全新的声音!是不是听起来很神奇?什么是Spark-TTS?Spark-TTS是一种新型的文本转语音(TTS)系统,它的核心是BiCodec——一种单流语音编解码器。这个编解码器可以把语音分解成两种互补的

文本转语音系统Spark-TTS:支持零样本语音克隆与细粒度控制
日前,一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。根据最新的 X 帖子和相关研究,这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出,展现了语音合成领域的重大突破。这款系统充分利用了大型语言模型(LLM)的强大能力,致力于实现高度准确且自然的语音合成,适用于研究和商业领域。Spark-TTS 的设计理念强调简洁与高效。该系统完全基于 Qwen2.5构建,摒弃了以往需要额外生成模型的复杂流程。与其他模型不同,Spark-TTS 直接从 LLM 预测的代码中重建音频