MathVerse:评估多模态大型语言模型视觉数学能力的新基准

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供了新路径。 实验结果显示,采用POLARIS训练的40亿参数开源模型Qwen3-4B,在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的高准确率,性能超越部分更大规模的闭源模型。尤为突出的是,POLARIS-4B模型的轻量化设计,使其能够在消费级显卡上轻松部署,大大降低了应用门槛。
中科院计算所推出Stream-Omni多模态大模型,支持文本、视觉、语音三种模态交互。创新采用针对性模态对齐技术,减少对大规模三模态数据的依赖,实现语音与文本的实时转换。模型支持任意模态组合,在视觉理解和语音交互方面表现优异,虽在拟人化方面有待改进,但为多模态智能交互提供了新思路。相关论文和代码已开源。
Anthropic正在测试代号"Claude Neptune v3"的新AI模型,引发行业关注。该模型目前处于内部安全测试阶段,重点评估宪法AI系统的稳健性。社交媒体反馈显示其数学推理能力突出,可能媲美OpenAI和Google的顶级模型。关于其定位存在两种猜测:可能是Claude4.5的预备版本,也可能是重大突破版本。在AI领域竞争加剧的背景下,Anthropic此举意在抢占市场先机,预计将优化上下文窗口和工具使用能力。虽然具体细节尚未公布,但已引发广泛讨论。
大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?强化学习在 Llama 模型上的扩展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破,推动了对千亿参数以下小
智谱AI正式开源最新一代通用视觉模型GLM-4.1V-Thinking,基于GLM-4V架构,新增思维链推理机制,显著提升复杂认知任务能力。该模型支持图像、视频、文档等多模态输入,擅长长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent及代码生成等多样化场景,覆盖千行百业的应用需求。GLM-4.1V-9B-Thinking在28项权威评测中表现卓越,其中23项达成10B级模型最佳成绩,18项持平或超越72B参数的Qwen-2.5-VL,涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld等基准测试。其9亿参数规模结合高效推理能力
近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。 据介绍,Qwen VLo在继承原有Qwen-VL系列模型优势的基础上,进行了全面升级。该模型不仅能够精准“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。用户现在可以在Qwen Chat(chat.qwen.ai)平台上直接体验这一新模型。
Meta成功从OpenAI挖走三位顶级人工智能研究员:卢卡斯·贝耶尔(Lucas Beyer)、亚历山大·科列斯尼科夫(Alexander Kolesnikov)和翟晓华,引发业界广泛关注。这三位研究员在机器学习和计算机视觉领域享有盛誉,以开发可扩展图像模型和视觉转换器(ViT)架构的突破性工作而闻名。值得注意的是,他们此前曾在Google DeepMind工作,并于2024年底刚刚参与在苏黎世开设OpenAI办事处。针对外界关于天价签约费的传闻,贝耶尔在X平台上亲自澄清,否认了获得1亿美元签约奖金的说法。这一数字此前由OpenAI首席
近日,创新型AI公司Vibemotion推出了一款革命性的AI动态图形平台,旨在通过简单的提示和素材输入,让用户轻松创建高质量的动态视频。目前,该平台采用等候名单制访问,引发了全球内容创作者的广泛关注。AIbase为您深入解析这一平台的亮点及其对创意产业的潜在影响。一键生成动态视频,创作门槛降至新低Vibemotion的AI动态图形平台以其极简的操作体验为核心亮点。用户只需输入一个基于创意想法的文本提示,并上传少量素材(如图片或短视频片段),即可快速生成具有专业水准的动态
Google DeepMind正式发布其新一代机器人AI模型Gemini Robotics On-Device,标志着机器人AI技术迈向更高效、更独立的里程碑。这一模型不仅能够在无互联网连接的情况下在机器人本地运行,还展现出强大的通用性和任务适应能力,为工业、仓储及家庭服务机器人领域带来革命性突破。突破云端限制,机器人AI本地化运行Gemini Robotics On-Device是一款基于Google Gemini2.0打造的视觉-语言-动作(VLA)模型,最大特点是完全运行于机器人本地硬件,无需依赖云端计算资源。这解决了传统云端机器人系统在网络不
6月23日,网易有道正式推出并开源其最新的 “子曰3” 系列大模型,英文名为 Confucius3-Math。这一专注于数学教育的推理模型,能够在普通的消费级 GPU 上高效运行,成为国内首个如此低成本高性能的 AI 教育工具。在一系列数学推理任务中,“子曰3” 展现出了超越许多大规模通用模型的出色性能。“子曰3数学模型” 通过大规模的增强学习和一系列创新算法,显著提升了数学问题的解决能力。训练成本仅为2.6万美元,推理性能达到了 DeepSeek R1的15倍之高。这使得它在众多数学相关数据集上的