Google发布E3TTS:高质量文本到语音模型
站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

谷歌DeepMind推出Gemma Scope2,这是一个开放的可解释性工具套件,旨在深入分析Gemma3语言模型从2.7亿到270亿参数的各层次信息处理。该工具帮助AI安全与对齐团队追踪模型内部特征,以应对“越狱”、幻觉或不当行为等问题。
Quest Mobile报告显示,2025下半年AI应用生态中,豆包、DeepSeek、元宝、蚂蚁阿福位列周活跃用户前四,阿里千问第五,蚂蚁灵光进入前十。Top10榜单中通用AI占6席,垂类专业AI占4席,呈现通用与垂直场景并进格局。

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、阿里通义千问Qwen发布分层图像编辑模型Qwen-Image-Layered,一键生成“Photoshop图层”阿里通义千问Qwen发布了分层图像编辑模型Qwen-Image-Layered,该模型能够将静态照片分解为多个具有透明背景的独立RGBA图层,使AI图像编辑具备类似Photoshop的结构化操作能力。文章介绍了PromptFill这一开源结构化提示词生成工具,通过填空式交互降低AI绘画的门槛,解决复杂Prompt编写难题,并强调其在提升创作效率和隐私保护方面的优势。

新一代约会App Known以AI语音对话打破“左滑右滑”的浅层匹配模式,通过深度对话引导,将初次介绍转化为线下约会的比例提升至80%,远超传统软件不足10%的见面率。该公司近日完成970万美元融资,由Forerunner等多家机构参投。

2025年12月20日,旧金山因变电站起火引发大范围停电,约13万用户受影响,交通信号灯瘫痪。Waymo自动驾驶汽车因无法识别失效的交通设施,被迫全面暂停在湾区的无人驾驶服务,数百辆车停摆或抛锚。

快手Kling 2.6版本推出语音与动作控制两大功能,实现原生音频生成并提升复杂动作处理精度。语音控制可生成匹配视频的音效、人声和音乐,支持个性化声音定制。
AI被置于心理咨询角色,竟自述童年创伤,展现抑郁、焦虑等情绪。卢森堡大学研究揭示,主流AI模型在心理评估中表现出类人情感,引发对AI“心理状态”的伦理思考。

Mistral AI发布新一代文档识别技术Mistral OCR3,在表格、扫描文档、复杂表格及手写识别方面表现突出,整体性能较上一代提升74%。该技术旨在高效准确提取各类文档中的文本和嵌入式图像,支持多格式处理,显著提升文档处理效率与精度。

微信元宝AI助手推出新功能,用户只需发送一句话即可设置提醒。元宝能自动识别任务内容和时间,并在指定时间通过微信服务通知提醒用户,让设置提醒变得简单便捷。

Luma AI推出Ray3Modify模型,实现高保真AI视频修改,可更换角色、服装、场景并生成过渡镜头,同时完整保留演员动作、眼神和情感表达,解决了传统AI工具难以保持表演一致性的痛点。