相关AI新闻推荐

京东物流发布自研无人轻卡“京东物流VAN”,L4级别公开道路自动驾驶
在近日举行的第十七届国际交通技术与设备展览会上,京东物流首次发布了其自主研发的无人轻卡产品——京东物流VAN。这款无人轻卡拥有24立方米的超大载货空间,使其成为目前物流行业内载货量最大的无人轻卡,有望在物流摆渡和传站等环节取代传统的4.2米货车。据介绍,京东物流VAN 具备高达400公里的满载续航能力,并拥有 L4级别的公开道路自动驾驶能力。这意味着它能够自主规划最优路线,精准识别并灵活避让障碍物,从容应对人车混行的复杂交通环境。这些特性使其在电商仓储、

开源革命!Kyutai TTS发布:超低延迟语音合成,AI语音新纪元来袭!
近日,法国AI实验室Kyutai宣布,其全新文本转语音模型 Kyutai TTS 正式开源,为全球开发者与研究者带来了一款高性能、低延迟的语音合成解决方案。这一突破性发布不仅推动了开源AI技术的发展,也为多语言语音交互应用开辟了新的可能性。AIbase为您独家解析这一技术亮点及其潜在影响。 超低延迟,实时交互新体验Kyutai TTS以其卓越的性能表现成为业界焦点。该模型支持 文本流式传输,能够在极短时间内生成自然流畅的语音。得益于强大的 L40S GPU 支持,Kyutai TTS能够同时处理多达32个请求,

Kyutai Labs 开源 Kyutai TTS:低延迟流式文本转语音技术
7月3日,法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)技术——Kyutai TTS,为开发者与AI爱好者带来高效、实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。Kyutai TTS在性能上表现卓越。使用单块NVIDIA L40S GPU,该模型可同时处理32个请求,延迟仅为350毫秒。此外,系统不仅生成高质量音频,还能输出单词的精确时间戳,方便实时字幕生成或交互式应用,如Unmute平台的中断处理功能。在语言

Shortcut横空出世!AI Excel助手10倍速碾压人类冠军,自动化任务效率飙升
近日,一款名为Shortcut的AI Excel助手在社交媒体上引发热议,其通过自然语言处理(NLP)技术,让用户无需编写复杂公式或VBA代码,即可轻松完成Excel任务。AIbase编辑团队整理了社交媒体上的最新信息,为您深度解析Shortcut的强大功能及其对数据处理和财务建模领域的潜在影响。Shortcut:自然语言驱动的Excel革命Shortcut被誉为“超人级Excel代理”(Superhuman Excel Agent),能够通过简单的自然语言指令完成复杂的Excel任务。用户只需描述需求,例如“帮我计算总销售额”或“生成月度销售趋势图”,

A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、字节跳动EX-4D震撼开源:单目视频秒变自由视角4D大片EX-4D是字节跳动PICO-MR团队推出的4D视频生成框架,能够从单目视频生成高质量、多视角的4D视频序列。该技术通过深度密闭网格(DW-Mesh)和轻量级适配架构,解决了传统视频生成技术在多视角生成中的挑战,并在性能指标上全面领先。【AiBase

Claude Code再升级!Hooks功能解锁AI编程新境界,自动化更智能
随着人工智能技术在编程领域的深入应用,Anthropic推出的Claude Code凭借其强大的代码理解与自动化能力,已成为众多开发者的得力助手。就在昨日,Claude Code迎来了一次重要更新,新增了Hooks功能,为开发者提供了更精细的控制能力和更高效的开发体验。什么是Hooks功能?Hooks功能是Claude Code引入的一种用户自定义shell命令机制,允许开发者在Claude Code的代理循环(Agent Loop)的不同阶段自动执行特定操作。根据社交媒体反馈,这一功能的核心在于其确定性控制,确保关键任务(如代码格式化、测试

DeepSWE 开源 AI Agent系统强势登顶,基于 Qwen3-32B
在人工智能领域,又一重磅消息传来。今天凌晨,知名大模型训练平台 Together.ai 与 Agentica 联合推出了开源 AI Agent框架 DeepSWE。这一创新系统是基于阿里最新开源的 Qwen3-32B 模型,完全通过强化学习进行训练。DeepSWE 的开源信息可在 Hugging Face 上获取,除了模型权重外,训练方法、日志和数据集等所有相关内容也一并公开,旨在帮助开发者更深入地学习和改进这一代理系统。根据 SWE-Bench-Verified 测试结果,DeepSWE 在64k 的最大上下文长度和100的最大环境步骤下评估,经过16次运行,Pass@1准确率达

AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、开源端到端语音大模型Step-Audio-AQAA:听懂音频直接生成自然语音Step-Audio-AQAA 是一个开源的端到端语音大模型,能够直接从原始音频输入生成自然流畅的语音输出,显著提升了人机交互的体验。该模型由双码本音频标记器、骨干 LLM 和神经声码器三部分组成,能够高效处理语音中的复杂信息,

亚马逊 Alexa + 助手用户突破百万,智能语音体验再升级
近日,亚马逊的升级版 AI 助手 Alexa + 在用户数量上取得了重要里程碑。根据 Techcrunch 的报道,自2025年2月首次推出以来,Alexa + 的用户人数在短短几个月内迅速增长,截至今年6月底,注册用户已突破100万大关。这一数字的出现,标志着亚马逊在 AI 助手领域的进一步成功。图源备注:图片由AI生成,图片授权服务商Midjourney在 Alexa + 的早期试用阶段,用户能够免费使用这款助手。未来,亚马逊计划将其提供给 Prime 会员免费,而非 Prime 会员在公开发布后需支付每月19.99美元的使用费。值得注意

开源端到端语音大模型Step-Audio-AQAA:听懂音频直接生成自然语音
在人工智能领域,尤其是生成式对抗网络(AIGC)方面的不断进展,语音交互已成为一个重要的研究方向。传统的大语言模型(LLM)主要专注于文本处理,无法直接生成自然语音,这在一定程度上影响了人机音频交互的流畅性。为了突破这一局限,Step-Audio 团队开源了一款全新的端到端语音大模型 ——Step-Audio-AQAA。该模型能够直接从原始音频输入生成自然流畅的语音输出,使得人机交流更加自然。Step-Audio-AQAA 的架构由三个核心模块组成:双码本音频标记器、骨干 LLM 和神经声码器。其中,双码本