信息

AI新闻资讯

探索AI前沿，掌握行业发展趋势

最新AI日报

每日精选AI热点，追踪最新行业动态

信息

AI 商用·开源产品库

精准筛选产品，多维度产品调研

AI 产品排行榜

热门AI产品实力、热度、年/月/日排行

AI产品提交

提交AI产品信息，助力产品推广和用户转化

工具

AI工具导航

一站式AI工具指南，快速找到你需要的工具

信息

模型库

涵盖各类AI模型，满足你的开发与研究需求

大模型排行榜

热门AI大模型性能、热度、年/月/日排行

模型供应商

寻找优质模型提供商，获取可靠模型支持

工具

大模型选型对比

多维度对比大模型，找到最适合你的模型

大模型费用计算器

精准计算大模型使用成本，合理规划预算

大模型竞技场

多模型实时评测，模型输出结果快速比对

信息

MCP服务端

聚集热门MCP服务，快速找到适合你的服务

MCP客户端

轻松接入MCP客户端，调用强大的AI能力

MCP教程与实践

学习MCP使用技巧，从入门到精通

MCP排行榜

热门MCP服务性能排行，帮你找到最佳选择

MCP服务提交

发布你的MCP服务，推广你的MCP服务

工具

MCP实验场

自由测试MCP服务，线上快速体验

MCP服务调试器

快速测试MCP服务，快速上线

工具

GEO品牌监控分析

分析并追踪人工智能模型如何引用您的品牌

GEO 大模型推荐优化

通过AI搜索优化服务，让品牌在AI中实现霸屏

GEO排名查询工具

检测品牌在AI平台中的可见度

工具

模型个人电脑配置检测器

一键检测电脑配置，研判运行模型的兼容性

模型部署服务器配置计算器

根据算力需求，推荐匹配的服务器配置

微软发布 VibeVoice 0.5B：仅0.5B参数却实现300毫秒实时开口

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Dec 5, 2025

13

微软今日发布全新的实时文本转语音模型 VibeVoice-Realtime-0.5B。尽管模型规模仅为0.5B，但却具备接近实时的语音生成能力，最快可在约300毫秒内开始发声，实现“话未说完音已先到”的流畅体验。该模型支持中英文实时转录与语音生成，其中中文表现略逊于英文，但整体依然保持高流畅度与高还原度。

VibeVoice-Realtime-0.5B 的自然音质表现备受关注。官方示例显示，其生成的语音连贯、自然，可持续朗读长文本内容，最长可稳定输出90分钟语音而不出现明显断续或风格漂移。与此同时，模型支持多角色语音场景，可在单次会话中呈现最多4位角色的自然对话，并在长时间交流中保持各自独特的语气、节奏和音色特征，适用于播客、访谈或虚拟主持类场景。

在情感表达方面，模型可自动识别文本语义并生成相匹配的情绪语调，包括愤怒、歉意、激动等细微变化，让语音更贴近真人表达。同时，VibeVoice-Realtime-0.5B 拥有稳定的上下文记忆能力，可在长段发言中保持语调、逻辑与速度一致，使整体呈现更真实、更具可听性。

相比传统大型语音模型，VibeVoice-Realtime-0.5B 的小体积和低延迟优势尤为突出。其轻量化设计适合直接嵌入应用设备，可为智能助手、对话系统、智能硬件带来更接近真人的即时语音交互体验。微软表示，随着 VibeVoice 的开放，未来将有更多应用场景具备“开口即说”的 AI 语音能力。

地址：https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

VibeVoice-Realtime-0.5B 微软实时文本转语音 AI新词

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

© 版权所有 AIbase基地 2024, 点击查看来源出处 -

相关AI新闻推荐

诺顿推出全球首款安全 AI 浏览器 Norton Neo 免费开放下载

诺顿推出全球首款安全 AI 浏览器 Norton Neo 免费开放下载

诺顿推出全球首款免费“安全AI原生浏览器”Norton Neo，旨在应对AI技术快速发展带来的在线安全挑战，为用户提供更智能、可信的浏览体验。

2025年12月5号 14:47

微软开源实时语音模型VibeVoice-Realtime-0.5B，300ms实时开声，90分钟长音频都不喘！

微软开源实时语音模型VibeVoice-Realtime-0.5B，300ms实时开声，90分钟长音频都不喘！

微软开源实时语音模型VibeVoice-Realtime-0.5B，具备极低延迟和接近真人的语音表现。该模型从文本输入到发声平均仅需300毫秒，远低于传统TTS模型的1-3秒，实现近乎零延迟的实时语音合成。

2025年12月5号 14:45

Vidu 发布 Q2“生图全家桶”:4K 生图 + 图像编辑 + 图转视频，全都免费用

Vidu 发布 Q2“生图全家桶”:4K 生图 + 图像编辑 + 图转视频，全都免费用

生数科技发布Vidu Q2版本“生图全家桶”，集成参考生图、文生图与图像编辑三大功能。新版本上线首日使用量突破50万次，显示用户需求旺盛。Vidu Q2增强了图像生成控制力，支持精准指定画面位置、动作与构图，并输出4K画质。新增图像编辑功能包括局部重绘和材质替换，在国际评测中表现优异。

2025年12月5号 14:43

KlingAI Avatar 2.0 上线即爆火：5 分钟唱跳一键生成，数字人正式告别“面瘫”时代

快手可灵AI发布数字人模型Avatar2.0，用户仅需提供一张照片和一段音乐，即可生成长达5分钟的唱歌视频。该模型显著提升了数字人的表现力，使其能够自然展现表情和肢体动作，告别僵硬“对口型”模式。这标志着AI内容创作从静态向动态叙事的重大进步。

2025年12月5号 14:24

Meta 或将在明年削减高达30% 的 “元宇宙” 预算

Meta 或将在明年削减高达30% 的 “元宇宙” 预算

Meta计划明年削减元宇宙部门预算，幅度或达30%，可能影响Quest头显和Horizon Worlds项目。公司此前已投入数十亿美元，但近期战略调整显示对元宇宙的投入可能放缓。

2025年12月5号 14:18

Nexus募完7亿美元新基金：AI与印度消费“双轮驱动”，早期支票仍从100万美元起跳

Nexus募完7亿美元新基金：AI与印度消费“双轮驱动”，早期支票仍从100万美元起跳

跨境风投机构Nexus Venture Partners完成7亿美元第八期基金募集，延续上期规模。未来三年将一半资金投向AI基础设施与Agent赛道，另一半继续投资印度本土消费、物流与数字基础设施。该机构坚持“小基金”策略，每2.5-3年募资一次，首支票额约100万美元，专注种子到A轮早期投资。

2025年12月5号 14:16

《芝加哥论坛报》起诉 Perplexity:被指未经授权抓取内容并绕过付费墙

《芝加哥论坛报》起诉 Perplexity:被指未经授权抓取内容并绕过付费墙

《芝加哥论坛报》起诉AI公司Perplexity，指控其未经授权抓取新闻内容、绕过付费墙并直接生成原文级别结果。报社律师曾询问内容使用情况，Perplexity回应称未将文章用于模型训练，但承认可能涉及非逐字事实引用。

2025年12月5号 14:13

24岁CEO把“人训AI”做成百亿赛道！Micro1 ARR一年飙至1亿美元，剑指机器人预训练数据金矿

24岁CEO把“人训AI”做成百亿赛道！Micro1 ARR一年飙至1亿美元，剑指机器人预训练数据金矿

AI数据服务商Micro1年收入突破1亿美元，估值达5亿美元，成为增长最快的AI供应链公司。公司从招聘工具转型为“AI专家云”平台，管理数千名跨学科专家，创始人年仅24岁。

2025年12月5号 14:03

国产算力“军团”集结：万卡推理引擎+开元模型同日发布

国产算力“军团”集结：万卡推理引擎+开元模型同日发布

2025光明科学城论坛在深圳举行，聚焦智能算力与大模型智能体。鹏城实验室等机构发布四项重要成果：鹏城脑海2.1开源多模态模型及配套数据集与工具链；国产万卡推理引擎FenixCOS首次亮相，支持大规模并行与高效切换；气象智能体“阿福”接入鹏城云脑Ⅲ，将服务第十五届全国运动会。

2025年12月5号 13:51

OpenRouter发布100万亿token AI使用状态报告

OpenRouter发布100万亿token AI使用状态报告

OpenRouter基于超100万亿标记数据研究发现，自2024年12月o1推理模型推出后，大型语言模型使用方式显著变化。开放权重模型使用增长明显，尤其在创意角色扮演和编程辅助领域，超出预期。

2025年12月5号 13:48