逻辑推理大翻车!GPT-4、Gemini被曝重大缺陷,LLM严重降智

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
近日,谷歌 DeepMind 推出的 Gemini2.5Pro 模型引起了科技界的广泛关注。作为当前行业领先的 AI 大语言模型之一,Gemini2.5Pro 凭借其百万级的长上下文处理能力,展示了前所未有的应用潜力。然而,尽管技术领先,模型的运行成本仍然高昂,且其质量还有提升空间。Gemini 系列的核心竞争力在于其能够处理超长上下文,这一特性使得它在 AI 编程、信息检索等领域的表现格外突出。与其他模型相比,Gemini2.5Pro 能够一次性读取整个项目的内容,带来更为流畅和高效的用户体验。这一技术的问世标志
淘天集团昨日在其“硬核少年技术节4.0”活动上宣布,其自主研发的百亿参数推荐大模型RecGPT已正式上线。这一创新成果将全面升级手机淘宝首页的“猜你喜欢”信息流,通过AIGR(生成式推荐)技术,为用户带来更加精准、个性化的推荐体验。RecGPT的上线,标志着淘宝在电商推荐领域迈出了重要一步。测试数据显示,搭载RecGPT大模型的推荐信息流表现出色,用户点击量实现两位数增长,同时用户加购次数和停留时长也均提升了超过5%。这表明RecGPT在提升用户互动和转化效率方面取得了显著
在最新的国际教育技术协会(ISTE)年会上,谷歌宣布了一项令人振奋的新计划 ——“Gemini for Education”。这一项目旨在为教师和学生提供强大的人工智能工具,助力教育的发展。谷歌表示,这款 Gemini 教育版本将免费集成到现有的教育方案中,确保学校无需支付额外费用即可使用其高级的 Gemini2.5Pro 模型。对于教师来说,“Gemini in the Classroom” 功能已经向所有 Workspace for Education 用户开放,提供超过30项新功能,这些功能将大幅提升教学准备的效率。例如,教师现在可以即时生成词汇表,节
近日,北京人工智能研究院推出了全新的开源系统 ——OmniGen2。这一系统专注于文本到图像的生成、图像编辑和上下文图像创作。与2024年发布的第一代 OmniGen 相比,OmniGen2采用了两条独立的解码路径:一条用于文本生成,另一条用于图像生成,且各自拥有独立的参数和解耦的图像标记器。这种设计让模型在保持文本生成能力的同时,有效地提升了多模态语言模型的表现。OmniGen2的核心是一个基于 Qwen2.5-VL-3B 变换器的大型多模态语言模型(MLLM)。在图像生成方面,该系统使用了一种自定义的扩
近日,谷歌Gemini推出全新功能“Scheduled Actions”(定时任务),允许用户通过简单的提示词设定未来或定期任务。这一功能的发布标志着Gemini向更智能、更主动的数字助理角色迈出了重要一步。AIbase整理了最新网络信息,为您深度解析这一功能如何重塑生产力工具的未来。“Scheduled Actions”:一键设定,自动执行Gemini的“Scheduled Actions”功能让用户能够通过自然语言提示词轻松设定定时任务。例如,您可以输入“每天早上5点给我过去24小时美股的分析报告”或“每周一早上8点提供最新AI资讯动
近日,关于 OpenAI 即将发布的 GPT-5的消息引发了科技界的广泛关注。据内部人士透露,GPT-5已经开始灰度测试,预计将在今年7月正式上线。这一代新模型将采用多模态设计,意味着它不仅能够处理文字输入,还能理解语音、图像、代码甚至视频,彻底改变我们与 AI 的互动方式。OpenAI 的首席执行官 Sam Altman 表示,GPT-5的推出将标志着 AI 技术的一次重大飞跃。这款新模型具备深度推理能力,能够进行实时视频生成,并且能够编写大量代码,进一步拓展了 AI 的应用场景。与之前的版本相比,GPT
近日,谷歌宣布其旗舰AI模型Gemini2.5Pro的API重新纳入Google AI Studio的免费层级,这一消息引发了开发者社区的广泛关注和热烈讨论。根据AIbase报道,这一举措标志着谷歌在AI技术普及化方面的又一重要进展,为开发者提供了更低门槛的创新机会。Gemini2.5Pro作为谷歌迄今为止最先进的AI模型,以其卓越的多模态能力和强大的推理性能而闻名。该模型支持高达100万token的上下文窗口,能够处理文本、图像、音频和视频等多种输入类型,在编码、复杂推理和数据分析等任务中表现尤为突出。此前,谷
在游戏性能日益提升的今天,英伟达再次引领了显卡技术的潮流。最新发布的 DLSS4SDK,不仅正式上线,还在显存(VRAM)的使用上进行了重大优化,让玩家们在享受高质量游戏画面的同时,显卡的负担也大大减轻。根据相关报道,英伟达在最新的 DLSS310.3.0版本中,对 Transformer 模型的显存占用进行了20% 的优化。之前,DLSS 的 Transformer 模型在显存使用上几乎是传统 CNN 模型的两倍,这让不少玩家在高分辨率游戏时感到压力。然而,经过优化后,Transformer 模型的显存占用仅比 CNN 模型多出40%。在1
OpenAI于2025年6月26日宣布推出两款全新的 Deep Research API模型:o3-deep-research-2025-06-26和 o4-mini-deep-research-2025-06-26,标志着其在自动化研究与复杂任务处理领域的重大突破。这两款模型专为高阶分析和深度信息合成设计,支持开发者通过API实现自动化的网页搜索、数据分析、代码执行等功能,为企业、研究人员和开发者提供了强大的工具。o3与o4-mini:性能与效率的平衡o3-deep-research 是OpenAI目前最强大的深度研究模型,推论能力达到最高等级(5/5),专为需要复杂推理和精准分析的任务打造,例如金
近日,Google 宣布即将推出的 Gemini 功能将会在 Android 设备上取代 Google 助手。根据 Android Police 获得的一封内部电子邮件,Gemini 的更新将在7月7日开始推送。这项更新将允许用户在关闭 Gemini 应用时,仍然可以通过该 AI 助手来控制手机的电话、信息、WhatsApp 等应用。这一变化旨在提升用户的使用体验,并在一定程度上减少隐私方面的顾虑。用户可以选择禁用 Gemini 的应用活动设置,这样聊天记录将不会被用于改进 Google 的产品和人工智能模型。同时,这也会阻止用户通过 Gemini 来执行一些日常