AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

Google推出SANPO数据集助力高级视觉场景理解

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Oct 16, 2023

Google最新发布SANPO数据集，用于帮助AI模型更好理解户外人类主观场景。该数据集包含真实世界和合成数据，具有丰富的注释和多属性特征。SANPO填补了人类主观场景理解领域数据集的空白，有助于研究自动驾驶、视障人士导航等领域。研究人员的隐私承诺支持其他研究人员开发视觉导航系统，推动视觉场景理解领域的发展。

SANPO数据集 GoogleAI 视觉场景理解

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

英国启动AI犯罪地图计划 2030年前锁定高风险区域

AIbase 报道:据neowin消息，英国政府科学、创新和技术部近日宣布启动“犯罪数据集中挑战赛”，目标是在2030年前为英格兰和威尔士打造一张由人工智能驱动的实时犯罪地图。该地图旨在预测持刀犯罪和反社会行为等高风险事件的发生地点，协助警方提前部署力量、主动干预。该项目隶属英国耗资5亿英镑的“研发任务加速器”计划，初始投资为400万英镑，原型预计在2026年4月完成。系统将整合警方、地方议会、社会服务机构等多方数据，包括已知罪犯的犯罪记录与行为模式，用于支持“更安

2025年8月15号 15:30

630

Meta重磅开源DINOv3！无需人工标注的AI视觉神器，颠覆图像识别新未来

Meta AI于近日正式开源了全新一代通用图像识别模型DINOv3，引发了全球开发者和研究人员的广泛关注。这款基于自监督学习的计算机视觉模型，以其无需人工标注即可实现卓越性能的特性，被认为是AI视觉技术的新里程碑。自监督学习:无需人工标注的突破DINOv3的核心创新在于其自监督学习框架，彻底摆脱了对人工标注的依赖。传统图像识别模型通常需要大量标注数据进行训练，而DINOv3通过自监督学习，能够从海量未标注图像中自主提取特征。这一特性不仅降低了数据准备的成本，还使其在

2025年8月15号 15:14

1.3k

上海交通大学发布新数据集，推动 AI 生成 3D 人脸质量评估技术

近日，上海交通大学的研究团队推出了一个名为 Gen3DHF 的新数据集，专注于评估 AI 生成的3D 人脸质量。随着生成式人工智能的快速发展，3D 人脸的生成成为可能，尤其在虚拟现实等领域具有广泛应用。然而，评估这些生成3D 人脸的质量和真实感依然是一个巨大的挑战，因为人类对面部特征的感知往往具有主观性和敏感性。Gen3DHF 数据集是一个大规模的基准数据集，包含2000个 AI 生成的3D 人脸视频，以及从质量和真实感两个维度收集的4000个平均意见得分（MOS）、2000个失真感知显著图和失真描

2025年8月15号 10:22

830

智元机器人发布机器人世界模型开源平台——Genie Envisioner

智元机器人在上海宣布推出面向真实世界机器人操控的统一世界模型平台——Genie Envisioner（GE）。这一创新平台突破了传统机器人学习系统分阶段开发的模式，将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构，实现了机器人从“看”到“想”再到“动”的端到端推理与执行。基于约3000小时的真实机器人操控视频数据，GE在跨平台泛化和长时序任务执行上展现出显著优势，为具身智能发展开辟了从视觉理解到动作执行的全新技术路径。 GE的核心突破在于构建了基于世界模型的视觉中心建模范式。与主流的视觉-语言-行动（VLA）方法不同，GE直接在视觉空间中建模机器人与环境的交互动态，完整保留了操控过程中的空间结构和时序演化信息。这种建模范式不仅赋予了GE高效的跨本体泛化能力，使其能够在极少量数据下实现跨平台迁移，还在长时序任务的精确执行能力上展现出巨大优势。例如，在折叠纸盒等超长步骤任务中，GE-Act的成功率远超现有顶尖方法。

2025年8月14号 16:51

1.4k

全球首届世界人形机器人运动会8月启幕:280支队伍角逐，场景赛成最大看点

全球首届世界人形机器人运动会8月14-17日在北京举行，280支国内外队伍参赛。赛事亮点包括：1）参赛阵容强大，涵盖宇树科技、星海图等国内头部企业及清华、北大等高校，还有15国国际队伍；2）创新设置酒店清洁、工厂搬运等场景赛，直指商业化应用；3）传统项目包括百米、半马、足球等，其中半马为全球首创。各队积极备战，如合肥某机构为药品分拣赛升级了视觉方案。赛事规模创纪录，展现人形机器人技术前沿。

2025年8月14号 10:38

1.1k

思科 AI 销售额激增，助力公司业绩再攀高峰

思科2025财年财报显示强劲增长：AI基础设施订单超20亿美元，远超10亿目标。Q4收入147亿美元（+8%），净利28亿（+31%）。CEO罗宾斯指出超大规模客户达成两笔10亿级交易，企业AI应用将推动网络业务增长。尽管业绩亮眼，但相比科技巨头数千亿数据中心投入，思科20亿AI收入仍较小。公司预计2026财年收入590-600亿美元（+4-5.8%），股价盘后微跌但市场反应积极。

2025年8月14号 10:12

630

腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率全场景输入

腾讯发布混元Large-Vision多模态模型，采用MoE架构激活参数达52B。核心亮点包括：支持任意分辨率图像、视频及3D空间输入，突破传统预处理限制；MoE架构实现性能与效率平衡，52B参数规模领先；强化多语言场景理解能力；任意分辨率支持保持视觉信息完整，3D输入拓展VR/AR等应用场景。该模型将推动智能监控、视频分析等领域发展，加剧国内多模态AI竞争。

2025年8月13号 9:21

2.3k

AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术；360智脑推出Light-IF系列模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V，这是该公司在通向通用人工智能（AGI）道路上的又一重要探索性成果。【AiBase提要:】🤖 GLM-4.5V总参数达到106B，在41个视觉多模态榜单中达到SOTA性能🎯 具备全场景视觉推理能

2025年8月12号 17:07

1.5k

AI编码卷出新高度！Youware一键生成后端项目，数据库+边缘函数全搞定！

近日，AI编码平台Youware迎来重大更新，不仅延续其强大的前端生成能力，还新增了对后端项目的全面支持，为开发者提供了从创意到落地的全栈解决方案。 Youware新功能:全栈开发的AI助力Youware作为一款以AI驱动的编码平台，凭借其智能生成、实时预览和社区协作功能，已成为全球开发者与创作者的热门选择。此次升级，Youware新增了生成后端项目的功能，支持开发者为网页添加数据库、边缘函数和身份验证系统。这一更新让非技术背景的用户也能轻松构建功能完整的动态应用，标志着Youware向

2025年8月12号 11:29