Google推出SANPO数据集 助力高级视觉场景理解

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
AIbase 报道:据neowin消息,英国政府科学、创新和技术部近日宣布启动“犯罪数据集中挑战赛”,目标是在2030年前为英格兰和威尔士打造一张由人工智能驱动的实时犯罪地图。该地图旨在预测持刀犯罪和反社会行为等高风险事件的发生地点,协助警方提前部署力量、主动干预。该项目隶属英国耗资5亿英镑的“研发任务加速器”计划,初始投资为400万英镑,原型预计在2026年4月完成。系统将整合警方、地方议会、社会服务机构等多方数据,包括已知罪犯的犯罪记录与行为模式,用于支持“更安
Meta AI于近日正式开源了全新一代通用图像识别模型DINOv3,引发了全球开发者和研究人员的广泛关注。这款基于自监督学习的计算机视觉模型,以其无需人工标注即可实现卓越性能的特性,被认为是AI视觉技术的新里程碑。 自监督学习:无需人工标注的突破DINOv3的核心创新在于其自监督学习框架,彻底摆脱了对人工标注的依赖。传统图像识别模型通常需要大量标注数据进行训练,而DINOv3通过自监督学习,能够从海量未标注图像中自主提取特征。这一特性不仅降低了数据准备的成本,还使其在
近日,上海交通大学的研究团队推出了一个名为 Gen3DHF 的新数据集,专注于评估 AI 生成的3D 人脸质量。随着生成式人工智能的快速发展,3D 人脸的生成成为可能,尤其在虚拟现实等领域具有广泛应用。然而,评估这些生成3D 人脸的质量和真实感依然是一个巨大的挑战,因为人类对面部特征的感知往往具有主观性和敏感性。Gen3DHF 数据集是一个大规模的基准数据集,包含2000个 AI 生成的3D 人脸视频,以及从质量和真实感两个维度收集的4000个平均意见得分(MOS)、2000个失真感知显著图和失真描
智元机器人在上海宣布推出面向真实世界机器人操控的统一世界模型平台——Genie Envisioner(GE)。这一创新平台突破了传统机器人学习系统分阶段开发的模式,将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,实现了机器人从“看”到“想”再到“动”的端到端推理与执行。基于约3000小时的真实机器人操控视频数据,GE在跨平台泛化和长时序任务执行上展现出显著优势,为具身智能发展开辟了从视觉理解到动作执行的全新技术路径。 GE的核心突破在于构建了基于世界模型的视觉中心建模范式。与主流的视觉-语言-行动(VLA)方法不同,GE直接在视觉空间中建模机器人与环境的交互动态,完整保留了操控过程中的空间结构和时序演化信息。这种建模范式不仅赋予了GE高效的跨本体泛化能力,使其能够在极少量数据下实现跨平台迁移,还在长时序任务的精确执行能力上展现出巨大优势。例如,在折叠纸盒等超长步骤任务中,GE-Act的成功率远超现有顶尖方法。
全球首届世界人形机器人运动会8月14-17日在北京举行,280支国内外队伍参赛。赛事亮点包括:1)参赛阵容强大,涵盖宇树科技、星海图等国内头部企业及清华、北大等高校,还有15国国际队伍;2)创新设置酒店清洁、工厂搬运等场景赛,直指商业化应用;3)传统项目包括百米、半马、足球等,其中半马为全球首创。各队积极备战,如合肥某机构为药品分拣赛升级了视觉方案。赛事规模创纪录,展现人形机器人技术前沿。
思科2025财年财报显示强劲增长:AI基础设施订单超20亿美元,远超10亿目标。Q4收入147亿美元(+8%),净利28亿(+31%)。CEO罗宾斯指出超大规模客户达成两笔10亿级交易,企业AI应用将推动网络业务增长。尽管业绩亮眼,但相比科技巨头数千亿数据中心投入,思科20亿AI收入仍较小。公司预计2026财年收入590-600亿美元(+4-5.8%),股价盘后微跌但市场反应积极。
腾讯发布混元Large-Vision多模态模型,采用MoE架构激活参数达52B。核心亮点包括:支持任意分辨率图像、视频及3D空间输入,突破传统预处理限制;MoE架构实现性能与效率平衡,52B参数规模领先;强化多语言场景理解能力;任意分辨率支持保持视觉信息完整,3D输入拓展VR/AR等应用场景。该模型将推动智能监控、视频分析等领域发展,加剧国内多模态AI竞争。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探索性成果。【AiBase提要:】🤖 GLM-4.5V总参数达到106B,在41个视觉多模态榜单中达到SOTA性能🎯 具备全场景视觉推理能
近日,AI编码平台Youware迎来重大更新,不仅延续其强大的前端生成能力,还新增了对后端项目的全面支持,为开发者提供了从创意到落地的全栈解决方案。 Youware新功能:全栈开发的AI助力Youware作为一款以AI驱动的编码平台,凭借其智能生成、实时预览和社区协作功能,已成为全球开发者与创作者的热门选择。此次升级,Youware新增了生成后端项目的功能,支持开发者为网页添加数据库、边缘函数和身份验证系统。这一更新让非技术背景的用户也能轻松构建功能完整的动态应用,标志着Youware向
麦肯锡报告显示多数企业尚未准备好安全应用生成式AI,仅17%企业积极应对可解释性风险。韩国AI公司Datumo完成1550万美元融资,累计融资2800万美元,为三星、LG等300多家企业提供AI模型评估与安全解决方案。公司从数据标注起家,现转型为AI安全服务商,2024年营收达600万美元。创始人金大卫曾任职韩国防务机构,其创新的众包数据标注模式在创业竞赛中验证成功。