斯坦福最新PIGEON模型:AI猜图位置准确率超90%

新智元
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
近日,OpenAI 推出的 o3模型因其能够精准猜测照片拍摄位置而引发广泛关注。这一功能由 Django Web 框架的创始人 Simon Wilson 首次测试,他在自己的博客中详细记录了 o3的推理过程,称这一体验既超现实又令人不安。Wilson 随意拍了一张看似平常的照片,包含了些许道路和房屋,却没有明显的标志性建筑。在将这张照片上传至 o3后,模型开始进行复杂的分析。o3的分析过程令人叹为观止,首先它假装看不到这张照片,但随后又迅速恢复 “视力”,并将注意力转向模糊的车牌信息。虽然车牌难以辨
近日,Nes2Net深度学习模型架构正式开源发布,成为语音反欺骗系统领域的重要突破。据AIbase了解,Nes2Net专为语音防伪检测设计,能够有效识别语音克隆、逻辑访问攻击、假歌声、假语音及部分语音伪造等多种伪造声音类型。其在歌唱声音深度伪造数据集CtrSVDD上的表现尤为突出,性能比当前最佳基线系统提升22%,后端计算成本降低87%。项目已在GitHub公开,引发了语音安全与AI研究社区的广泛关注。核心创新:嵌套架构直接处理高维特征Nes2Net的核心在于其独特的Nested Res2Net架构,解决了传统语
浩瀚宇宙,繁星亿万,寻找另一颗蓝色星球的梦想,如同大海捞针。但现在,来自瑞士的一支科研团队,为这场史诗级的探索注入了强大的新动能。他们精心打造了一款人工智能模型,如同一位目光锐利的星际侦探,能够穿透星尘,洞察那些可能隐藏着宜居世界的未知角落。这不仅仅是一项技术突破,更像是一张指向未来的藏宝图。在一篇发表于《天文学与天体物理学》杂志的最新研究中,科学家们详细描绘了这位 AI 侦探的非凡能力。通过深度学习,这个智能算法仔细梳理了已知星系的数
全球人工智能(AI)市场在2024年的规模预计为6382.3亿美元,到2034年将增长至3680.47亿美元,年均增长率(CAGR)为19.20%。人工智能技术正在快速发展,成为各行业数字化转型的重要组成部分。从自动化日常任务到智能决策,机器学习、深度学习、计算机视觉和自然语言处理等 AI 技术正在广泛应用于医疗、金融、零售、汽车和制造等领域。图源备注:图片由AI生成,图片授权服务商Midjourney市场的快速增长主要得益于数据的可用性增加、计算能力的提升以及对 AI 研究和基础设施的投资加大。AI 还逐
在生物序列建模领域,深度学习技术的进步令人瞩目,但高昂的计算需求和对大数据集的依赖让许多研究者感到困扰。最近,麻省理工学院(MIT)、哈佛大学和卡内基梅隆大学的研究团队推出了一种名为 Lyra 的新型生物序列建模方法。这种方法不仅参数显著减少到仅有传统模型的12万分之一,而且能够在短短两小时内使用两块 GPU 进行训练,极大地提升了模型的效率。Lyra 的设计灵感来源于生物学中的上位效应(即序列内突变间的相互作用),它通过一个次二次架构来有效理解生物序列与其
在今天的例行发布会上,市场监管总局宣布,将加快推进人工智能(AI)领域国家标准的研制工作。这一举措旨在引领行业发展方向,优化技术应用,提升产业生态,推动AI技术的高效、可靠应用。首先,市场监管总局将重点关注算力平台的标准建设。计划加快推动深度学习编译器、高质量数据集以及计算调度与协同等关键技术标准的制定。通过优化AI数据服务和计算资源整合,提升人工智能领域的资源利用效率。图源备注:图片由AI生成,图片授权服务商Midjourney在大模型技术领域,将加速
近日,苹果公司在其官方网站上更新了一项声明,披露了其如何收集和 “Look Around” 功能的图像,这一功能类似于谷歌地图的街景服务。根据最新的公告,自2025年3月起,苹果将开始利用在 “Look Around” 调查中收集的图像和数据来训练其产品和服务中使用的人工智能模型。这些模型包括与图像识别、创作及增强相关的技术。苹果通过配备有摄像头、传感器及其他设备的车辆和背包(用于行人专用区域)来收集图像和三维数据,以提高和完善 Apple Maps(苹果地图)的功能。在公司致力于保护用
VideoPainter是一款基于深度学习的编辑神器,犹如一位灵巧的魔术师,能够通过简单的提示词,自动识别并修改视频内容,尤其适合长视频处理。输入提示词,自动识别内容想象一下,您正在观看一段精彩的视频,突然发现某个细节让您感到不满。以往,您可能需要费尽周折,逐帧调整,甚至重拍整个片段。但现在,有了 VideoPainter,您只需输入简短的提示词,这个系统就能自动识别需要修改的内容,并完成编辑。就像是在对一位艺术家发出指令:“把这块背景换成星空!” 于是,瞬间,您眼
近日,Nvidia与犹他州政府宣布建立战略合作伙伴关系,共同推出全面的人工智能教育计划,旨在提升该州劳动力技能并促进经济增长。这项公私合作将为犹他州的大学、社区学院和成人教育项目提供发展生成式人工智能技能的关键资源。作为计划核心部分,教育工作者可通过Nvidia深度学习学院大学大使计划获得专业认证,享有高质量教学套件、研讨会内容以及云端Nvidia GPU加速工作站的访问权限。犹他州州长Spencer Cox表示:"人工智能将影响犹他州经济的每个领域。与Nvidia合作是帮助我们在短
人工智能在图像识别领域那是卷得飞起,分类猫猫狗狗早就Out啦,现在流行的是“连连看”Plus版,比如一眼认出这是哪一年的哪个型号的跑车,或者这只鸟的眉毛是不是比隔壁老王的粗那么一丢丢。可问题来了,神经网络它“聪明”是聪明,但让它说清楚“我凭啥说这是这个?”的时候,就有点像学渣被问解题思路,支支吾吾半天憋不出个所以然。传统的Class Activation Map(CAM)就像是给神经网络脑袋上戴了个发光圈,告诉你“嗯,它主要看这块儿了”,但具体看啥?为啥看这儿?遇到“双胞胎