AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

Deepgram推出Aura文本转语音模型，支持实时语音交互

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Dec 11, 2023

Deepgram发布了名为Aura的文本转语音模型，旨在满足实时语音AI代理需求。Aura通过提供更贴近人类声音的对话体验，包括及时回应和自然语音填充词汇，解决了语音AI供应商的速度、成本和对话质量等问题。Deepgram希望通过Aura成为实时、对话式语音AI代理的完整平台，提高高吞吐量领域的效率，计划于明年初正式发布。

语音AI 文本转语音 Deepgram

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

颠覆性开源 TTS 模型 Dia 发布:情绪、非语言提示全支持，媲美真人对话

一家名为 Nari Labs 的两人创业公司发布了 Dia，这是一个拥有16亿参数的文本转语音（TTS）模型，旨在直接从文本提示生成自然对话。其联合创始人 Toby Kim 声称，Dia 的性能超越了 ElevenLabs 等竞争对手的专有产品以及谷歌的 NotebookLM AI 播客生成功能，并可能对 OpenAI 近期发布的 gpt-4o-mini-tts 构成威胁。Kim 在社交媒体 X 上表示，Dia 在质量上可与 NotebookLM 的播客功能媲美，并优于 ElevenLabs Studio 和 Sesame 的开放模型。他透露，该模型是在“零资金”的情况下构建的，并强调他们并非一开始就是人工

2025年4月23号 9:31

5.0k

微软 Edge 浏览器推出免费 Copilot Vision 功能，AI 助手实时解读屏幕内容

近日，微软在其 Edge 浏览器中免费上线了全新的 AI 助手功能 “Copilot Vision”。这一功能的推出为用户提供了更为智能的操作体验，让用户可以通过语音与 AI 助手进行互动，实时解读屏幕内容，帮助用户完成各项任务。根据微软人工智能首席执行官穆斯塔法・苏莱曼的介绍，Copilot Vision 是一种基于语音的助手功能。用户使用时只需启用该功能，就能够让 Copilot Vision “看到” 用户屏幕上显示的内容。例如，在烹饪过程中，用户可以请 Copilot Vision 指导他们按照食谱操作，或者在求职时让它解

2025年4月17号 10:01

2.6k

Anthropic或将推出语音AI助手，Claude将支持三种声音模式

据彭博社报道，人工智能公司 Anthropic 正在积极准备推出其新的语音 AI 助手，该助手将集成在其 AI 聊天机器人 Claude 中，预计将在本月内正式发布。此项新功能将使用户能够通过语音与 Claude 进行互动，提升人机交流的便捷性与自然性。据悉，Anthropic 计划推出三种不同的英语语音模式，分别命名为 Airy、Mellow 和 Buttery。这三种声音各具特色，旨在为用户提供更加多样化和个性化的交流体验。这一消息最早由应用研究员 M1Astra 在 Anthropic 的 iOS 应用中发现，随后得到了彭博社的确认。Anthropic 的

2025年4月16号 9:55

2.7k

字节跳动在Hugging Face发布MegaTTS3：轻量化语音合成新突破

北京——字节跳动（ByteDance）近日在人工智能开源社区Hugging Face上正式发布了其最新的文本转语音（TTS）模型MegaTTS3。这一发布迅速引起了全球AI研究者和开发者的关注，因其在轻量化设计和多语言支持方面的突破性表现。根据技术社区反馈和官方信息，MegaTTS3 被誉为语音合成领域的一次重要进步。MegaTTS3 的核心亮点MegaTTS3 是一款由字节跳动与浙江大学合作开发的开源语音合成工具，其主干模型仅包含0. 45 亿个参数，相较于传统大型TTS模型显得异常轻量。这一设计不仅降低了计算资源需求，

2025年4月3号 8:23

7.9k

MiniMax Audio推Speech- 02语音模型，一次性可以输入20万字符

备受关注的音频技术创新者MiniMax Audio正式发布了其全新的Speech-02系列语音模型，支持30多种语音，一次性可以输入20万字符。为用户带来更真实、更流畅、更便捷的音频体验。全新的Speech-02系列是本次更新的核心亮点。据官方介绍，该系列在多语言覆盖能力上实现了显著提升，能够更准确、更地道地呈现多种语言的发音。更令人惊喜的是，Speech-02的人声相似度高达99%，这意味着合成的语音听起来更加自然、贴近真人. 此外，该模型还实现了零节奏故障，彻底解决了音频播放过程中可能出现的

2025年4月2号 10:34

6.7k

ElevenLabs发布全球首款犬类AI文本转语音模型“Text To Bark”

近日，人工智能音频技术领域的先锋企业ElevenLabs宣布推出全球首款专为犬类设计的AI文本转语音模型“Text To Bark”，引发了科技界和宠物爱好者的广泛关注。这一创新技术号称能够将人类输入的文字转化为高度逼真的狗吠声，据称其真实度之高，甚至有95%的狗无法分辨这些声音是由AI生成而非真实犬类发出的。此举被视为推动人类与宠物之间“沟通”的一次大胆尝试，尽管狗狗可能仍无法理解人类的具体意图，但这一技术至少让人类能够以“狗语”表达自己。据介绍，“Text To Bark”模型的

2025年4月2号 9:52

3.7k

Orpheus TTS:情感表达贴近人类的新一代TTS模型

3月19日，一款名为Orpheus TTS的开源文本转语音（TTS）模型正式亮相。这款模型以其接近人类的情感表达、自然流畅的语音效果以及超低延迟的实时输出流特性，迅速引起关注。据悉，Orpheus TTS在实时对话场景中表现出色，有望为智能语音交互带来新突破。Orpheus TTS主打低延迟和高情感表现，其核心特点包括: - **超低延迟**:默认延迟约200毫秒，通过输入流与模型的KV缓存优化，可将延迟压缩至25-50毫秒，满足实时对话需求。 - **情感表达**:语音输出自然流畅，能够贴近人类情感，支持丰富的语

2025年3月20号 10:26

4.5k

谷歌云重磅推出高清语音模型 Chirp 3，支持248种声音

谷歌云在位于伦敦的 DeepMind 总部举行了一场会，正式推出其高清语模型 Chirp3。该模型通过 Vertex AI 统一机器学习平台向开发者开放，提供了丰富的开发工具，助力程序的创新。Chirp3支持248种不同的声音，并可用31种语言进行语音合成。开发者可以利用这一模型创建多种应用，如智能语音助手、有声读物和视频配音等。谷歌表示，Chirp3的语音功能能够捕捉人类语调的细微差别，使得对话更加生动和引人入胜。除了使用现成的语音，用户还可以通过谷歌云的文本转语音 API 创建自定义语音。然

2025年3月18号 9:54

3.8k

Spark-TTS：用AI让声音“克隆”和“定制”成为现实！

在科技飞速发展的今天，人工智能已经渗透到我们生活的方方面面，从智能语音助手到各种自动化服务，AI正在以一种前所未有的方式改变我们的生活。今天，我要给大家介绍一项超级酷炫的技术——Spark-TTS，一个基于Qwen2.5模型的高效文本转语音系统。它不仅能“克隆”你的声音，还能根据你的需求“定制”出全新的声音!是不是听起来很神奇?什么是Spark-TTS?Spark-TTS是一种新型的文本转语音（TTS）系统，它的核心是BiCodec——一种单流语音编解码器。这个编解码器可以把语音分解成两种互补的

2025年3月7号 14:54

8.6k

文本转语音系统Spark-TTS：支持零样本语音克隆与细粒度控制

日前，一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。根据最新的 X 帖子和相关研究，这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出，展现了语音合成领域的重大突破。这款系统充分利用了大型语言模型（LLM）的强大能力，致力于实现高度准确且自然的语音合成，适用于研究和商业领域。Spark-TTS 的设计理念强调简洁与高效。该系统完全基于 Qwen2.5构建，摒弃了以往需要额外生成模型的复杂流程。与其他模型不同，Spark-TTS 直接从 LLM 预测的代码中重建音频

2025年3月6号 11:29

4.1k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图