语音交互领域迎来里程碑式突破!国内AI公司阶跃(Step Audio)近日震撼开源了一款
语音AI“一步到位”!阶跃开源 130B 统治级语音模型,实时对话+情感克隆,炸裂来袭

AIbase基地
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
语音交互领域迎来里程碑式突破!国内AI公司阶跃(Step Audio)近日震撼开源了一款
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
【AI日报速览】阿里开源ThinkSound音频生成模型,支持链式推理实现高保真空间音频;谷歌Veo3升级,单图即可生成专业运镜视频;Hugging Face发布30亿参数SmolLM3模型,支持双模式推理;阿里WebSailor智能体展现强大检索能力;Moonvalley推出1080P无版权风险视频模型;Vidu Q1支持7图融合生成一致性视频;苹果研发AI客服助手优化用户体验;飞书发布多款企业AI产品及成熟度模型;微软等科技巨头联合成立AI教育学院,投入2300万美元培训教师。
香港维纳智能科技发布首个免费大模型协同问答系统"QueWi"及两款旗舰应用,突破AI发展瓶颈。公司开发了SYNC、ToM等核心技术,解决行业交互数据短缺问题。测试显示其系统性能超越国际主流AI模型,时事溯源能力达94%,本地名词识别精确度超93%。这一创新将推动香港及全球AI技术应用,助力实现"智能生活"愿景。
Hugging Face推出3B参数开源模型SmolLM3,性能媲美4B参数模型。该模型采用GQA和NoPE技术优化,支持128K长上下文和六种语言处理,在多项基准测试中表现优异。创新性地提供"思考"与"非思考"双推理模式,复杂任务性能提升显著。完全开源训练数据与代码,适合边缘设备部署,为教育、客服等场景提供高性价比解决方案。其开源特性将推动AI生态发展,展现小模型的巨大潜力。
智元机器人公司近日公布一项机器人运动控制模型训练专利。该专利通过对比机器人实际接触序列与预期接触序列的差异,生成摆动激励值来优化模型参数。其中预期接触序列基于相位变量和步态映射关系生成,包含摆动相占空比和足间相位偏移量等信息。该方法能有效提升机器人运动控制精度,使机器人动作更加精准稳定。
Moonvalley发布全新AI视频生成模型Marey Realism v1.5,具备三大核心优势:原生1080P高清画质,基于授权训练数据确保零版权风险,以及精准解读复杂提示的创作能力。该模型支持文本/图像转视频,能生成电影级运动光影效果,未来还将推出姿势传递功能。这一突破性产品为影视制作、广告创意等领域提供了安全高效的AI创作工具,推动行业技术升级。
阿里通义开源WebSailor智能体,32B/72B版本性能超越多款闭源模型,仅次于OpenAI。这是阿里继WebWalker、WebDancer后第三款开源智能体。银河证券认为AI Agent经济已全面开启,建议关注焦点科技、中科金财等布局企业。焦点科技运用AI Agent技术赋能跨境电商,中科金财推进智能体在银行领域应用。阿里开源降低企业接入门槛,或将加速行业技术迭代。
英伟达联合港大、MIT推出Fast-dLLM技术,显著提升扩散语言模型推理效率。该技术通过创新的块状KV缓存机制,将LLaDA模型推理速度提升27.6倍,同时采用置信度解码策略保证生成质量。测试显示,在数学推理等任务中,模型吞吐量达54.4tokens/s,准确率保持78.5%,实现速度与质量的双重突破。
近日,阿里语音AI团队宣布开源全球首个支持链式推理的音频生成模型ThinkSound,该模型通过引入思维链(Chain-of-Thought)技术,突破传统视频转音频技术对画面动态捕捉的局限,实现高保真、强同步的空间音频生成。这一突破标志着AI音频技术从“看图配音”向“结构化理解画面”的跨越式发展。
Hugging Face发布开源小模型SmolLM3,30亿参数性能超越同类产品。该模型支持128k上下文窗口和多语言处理,提供深度/非深度两种推理模式。采用改进的transformer架构,经三阶段混合训练(网络/数学/代码数据)优化性能。完全公开架构细节和训练流程,促进开发者研究。模型具备高效推理能力,为AI应用提供新可能。
【AI日报热点速览】1.腾讯混元推出美术级3D生成大模型Hunyuan3D-PolyGen,创新BPT技术提升建模效率70%;2.阿里HumanOmniV2多模态模型准确率达69.33%,支持多语言输入;3.钉钉AI表格实现1小时处理千项任务,首创"表格即文档"功能;4.百度PaddleOCR3.1支持37种语言识别,准确率提升30%;5.微软Deep Research自动化研究工具开放API;6.香港理工与OPPO联合推出视频高清化框架DLoRAL,推理速度提升10倍;7.谷歌开源数据库AI工具MCP Toolbox,简化SQL集成;8.微软Win11将推AI动态壁纸功能,代码已现身预览版。