AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

语音合成工具 Narakeet：输入文本即可快速创建解说视频

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Aug 29, 2023

Narakeet 是一款快速创建语音解说视频的语音合成工具。用户可以将文稿转换为视频和音频文件，节省录制和重新录制音频的时间。同时，Narakeet 还提供了多种声音选择和自动化视频制作功能，适用于培训视频、市场营销视频以及 YouTube 视频的制作。该工具的特点包括转换文字为语音、快速创建视频以及自动化视频制作。

语音合成视频制作文本转语音

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

颠覆性开源 TTS 模型 Dia 发布:情绪、非语言提示全支持，媲美真人对话

一家名为 Nari Labs 的两人创业公司发布了 Dia，这是一个拥有16亿参数的文本转语音（TTS）模型，旨在直接从文本提示生成自然对话。其联合创始人 Toby Kim 声称，Dia 的性能超越了 ElevenLabs 等竞争对手的专有产品以及谷歌的 NotebookLM AI 播客生成功能，并可能对 OpenAI 近期发布的 gpt-4o-mini-tts 构成威胁。Kim 在社交媒体 X 上表示，Dia 在质量上可与 NotebookLM 的播客功能媲美，并优于 ElevenLabs Studio 和 Sesame 的开放模型。他透露，该模型是在“零资金”的情况下构建的，并强调他们并非一开始就是人工

2025年4月23号 9:31

5.0k

AI虚拟化身引领技术新浪潮：生成模型开启多样化应用前景

近日，生成式AI技术取得突破性进展，使虚拟化身（AI Avatars）不仅具备了栩栩如生的外表，更能自然流畅地"开口说话"。这一技术融合了尖端的语音合成与面部表情生成能力，正以惊人的速度打破数字与现实世界的边界，将AI从幕后工具推向与人类直接对话的舞台中央。这些AI虚拟化身的出现标志着生成式AI技术融合迈出了关键一步。通过将高度逼真的面部动画与自然语音合成无缝结合，这些数字角色能够精确模拟人类的细微表情、实现精准的口型同步，甚至表达情感变化，使其在视觉与听

2025年4月9号 8:38

1.8k

字节跳动在Hugging Face发布MegaTTS3：轻量化语音合成新突破

北京——字节跳动（ByteDance）近日在人工智能开源社区Hugging Face上正式发布了其最新的文本转语音（TTS）模型MegaTTS3。这一发布迅速引起了全球AI研究者和开发者的关注，因其在轻量化设计和多语言支持方面的突破性表现。根据技术社区反馈和官方信息，MegaTTS3 被誉为语音合成领域的一次重要进步。MegaTTS3 的核心亮点MegaTTS3 是一款由字节跳动与浙江大学合作开发的开源语音合成工具，其主干模型仅包含0. 45 亿个参数，相较于传统大型TTS模型显得异常轻量。这一设计不仅降低了计算资源需求，

2025年4月3号 8:23

7.9k

MiniMax Audio推Speech- 02语音模型，一次性可以输入20万字符

备受关注的音频技术创新者MiniMax Audio正式发布了其全新的Speech-02系列语音模型，支持30多种语音，一次性可以输入20万字符。为用户带来更真实、更流畅、更便捷的音频体验。全新的Speech-02系列是本次更新的核心亮点。据官方介绍，该系列在多语言覆盖能力上实现了显著提升，能够更准确、更地道地呈现多种语言的发音。更令人惊喜的是，Speech-02的人声相似度高达99%，这意味着合成的语音听起来更加自然、贴近真人. 此外，该模型还实现了零节奏故障，彻底解决了音频播放过程中可能出现的

2025年4月2号 10:34

6.7k

ElevenLabs发布全球首款犬类AI文本转语音模型“Text To Bark”

近日，人工智能音频技术领域的先锋企业ElevenLabs宣布推出全球首款专为犬类设计的AI文本转语音模型“Text To Bark”，引发了科技界和宠物爱好者的广泛关注。这一创新技术号称能够将人类输入的文字转化为高度逼真的狗吠声，据称其真实度之高，甚至有95%的狗无法分辨这些声音是由AI生成而非真实犬类发出的。此举被视为推动人类与宠物之间“沟通”的一次大胆尝试，尽管狗狗可能仍无法理解人类的具体意图，但这一技术至少让人类能够以“狗语”表达自己。据介绍，“Text To Bark”模型的

2025年4月2号 9:52

3.7k

Orpheus TTS:情感表达贴近人类的新一代TTS模型

3月19日，一款名为Orpheus TTS的开源文本转语音（TTS）模型正式亮相。这款模型以其接近人类的情感表达、自然流畅的语音效果以及超低延迟的实时输出流特性，迅速引起关注。据悉，Orpheus TTS在实时对话场景中表现出色，有望为智能语音交互带来新突破。Orpheus TTS主打低延迟和高情感表现，其核心特点包括: - **超低延迟**:默认延迟约200毫秒，通过输入流与模型的KV缓存优化，可将延迟压缩至25-50毫秒，满足实时对话需求。 - **情感表达**:语音输出自然流畅，能够贴近人类情感，支持丰富的语

2025年3月20号 10:26

4.5k

谷歌云重磅推出高清语音模型 Chirp 3，支持248种声音

谷歌云在位于伦敦的 DeepMind 总部举行了一场会，正式推出其高清语模型 Chirp3。该模型通过 Vertex AI 统一机器学习平台向开发者开放，提供了丰富的开发工具，助力程序的创新。Chirp3支持248种不同的声音，并可用31种语言进行语音合成。开发者可以利用这一模型创建多种应用，如智能语音助手、有声读物和视频配音等。谷歌表示，Chirp3的语音功能能够捕捉人类语调的细微差别，使得对话更加生动和引人入胜。除了使用现成的语音，用户还可以通过谷歌云的文本转语音 API 创建自定义语音。然

2025年3月18号 9:54

3.8k

Sesame发布CSM模型：实时情感定制 AI语音合成迈向新高度

3月13日，Sesame公司推出其最新语音合成模型CSM，引发业界关注。据官方介绍，CSM采用端到端基于Transformer的多模态学习架构，能够理解上下文信息，生成自然且富有情感的语音，声音效果贴近真人，令人惊艳。该模型支持实时语音生成，可处理文本和音频输入，用户还能通过调整参数控制语气、语调、节奏及情感等特性，展现高度灵活性。CSM被认为是AI语音技术的重要突破。其语音自然度极高，甚至“无法分辨是人工合成还是真人”。有用户录制视频展示CSM几近无延迟的表现，称其为“体验

2025年3月14号 10:53

5.3k

Spark-TTS：用AI让声音“克隆”和“定制”成为现实！

在科技飞速发展的今天，人工智能已经渗透到我们生活的方方面面，从智能语音助手到各种自动化服务，AI正在以一种前所未有的方式改变我们的生活。今天，我要给大家介绍一项超级酷炫的技术——Spark-TTS，一个基于Qwen2.5模型的高效文本转语音系统。它不仅能“克隆”你的声音，还能根据你的需求“定制”出全新的声音!是不是听起来很神奇?什么是Spark-TTS?Spark-TTS是一种新型的文本转语音（TTS）系统，它的核心是BiCodec——一种单流语音编解码器。这个编解码器可以把语音分解成两种互补的

2025年3月7号 14:54

8.6k

文本转语音系统Spark-TTS：支持零样本语音克隆与细粒度控制

日前，一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。根据最新的 X 帖子和相关研究，这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出，展现了语音合成领域的重大突破。这款系统充分利用了大型语言模型（LLM）的强大能力，致力于实现高度准确且自然的语音合成，适用于研究和商业领域。Spark-TTS 的设计理念强调简洁与高效。该系统完全基于 Qwen2.5构建，摒弃了以往需要额外生成模型的复杂流程。与其他模型不同，Spark-TTS 直接从 LLM 预测的代码中重建音频

2025年3月6号 11:29

4.1k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图