MyShell多语言、多口音文本转语音库MeloTTS开源
站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
千问App接入高德扫街榜,推出AI语音代订餐厅功能。用户只需语音说明位置、预算、包厢及家庭友好度等需求,系统即可基于真实商户数据精准筛选。选定后,AI将模拟真人语调自动致电商家沟通。

阶跃星辰开源语音推理模型Step-Audio-R1.1在权威评测中夺冠,以96.4%准确率超越多个主流闭源模型,刷新历史纪录。

苹果最新发布的多模态AI模型“Manzano”,成功将视觉识别与文本生成图像功能结合,实现“双修”能力。该模型不仅能精准理解图像内容,还能根据文本生成高质量图片,标志着AI技术的重要突破,有望满足行业对多功能模型的需求。
公司发布新一代开源医疗大模型MedGemma 1.5及临床语音识别模型MedASR,强化医疗技术布局。MedGemma 1.5基于Gemma系列,重点提升医学影像理解能力,可处理文本病历、检验报告、医学文献及X光、CT等影像数据,辅助初步筛查与诊断。

亚马逊推出AI可穿戴设备Bee,操作简便,一键录音。用户可通过应用自定义按钮功能,如双击标记对话片段、处理对话或同时操作,长按可留语音备忘录或与AI助手对话。Bee具备监听、录音和转写功能,独特之处在于其便捷的交互设计。
班加罗尔语音AI初创公司Arrowhead获300万美元种子轮融资,由Stellaris Venture Partners领投,CRED创始人库纳尔·沙阿等天使投资人跟投。资金将用于优化AI模型、扩充团队,并拓展金融服务市场。
上汽名爵发布2026款MG7,共推四款车型,延续轿跑运动设计,新增冰岛蓝配色。新车采用溜背造型、豹跃肩线及无边框车门,强化动感外观,长宽高尺寸保持现款风格。

谷歌在CES 2026上展示了Gemini在Google TV上的新功能,通过AI提升智能电视体验。用户可用自然语言模糊搜索内容,如“找一部像《权力的游戏》那样的奇幻剧”,系统能精准匹配。此外,电视还具备互动学习、照片编辑和设置优化等功能,标志着智能电视进入更自然、视觉化的AI时代。
智元机器人与MiniMax达成战略合作,MiniMax将为其人形机器人提供端到端文本到语音技术,提升机器人在真实场景中的自然交互与情感表达能力。合作聚焦语音合成,利用高自然度语音生成、多情感语调建模等技术,打造“会说话”的智能体。

三星Family Hub智能冰箱新增语音开关门功能,用户可通过Bixby语音助手控制冰箱门开关,支持超过90度完全打开,方便烹饪时使用。