AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

MathVerse：评估多模态大型语言模型视觉数学能力的新基准

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Mar 26, 2024

站长之家报道了一个名为 MathVerse 的新基准，用于评估多模态大型语言模型在视觉数学问题上的表现。研究发现，大多数模型对视觉输入依赖较高，但 GPT-4V 在文本和视觉方面表现出色。该基准的推出为未来 MLLMs 发展方向提供了新思路。

MLLMs 视觉数学 MATHVERSE

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

近日，字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美的水平，为人工智能领域的小模型优化提供了新路径。实验结果显示，采用POLARIS训练的40亿参数开源模型Qwen3-4B，在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的高准确率，性能超越部分更大规模的闭源模型。尤为突出的是，POLARIS-4B模型的轻量化设计，使其能够在消费级显卡上轻松部署，大大降低了应用门槛。

2025年7月16号 10:56

730

Stream-Omni：同时支持各种模态组合交互,开启文本、视觉、语音结合

中科院计算所推出Stream-Omni多模态大模型，支持文本、视觉、语音三种模态交互。创新采用针对性模态对齐技术，减少对大规模三模态数据的依赖，实现语音与文本的实时转换。模型支持任意模态组合，在视觉理解和语音交互方面表现优异，虽在拟人化方面有待改进，但为多模态智能交互提供了新思路。相关论文和代码已开源。

2025年7月7号 17:36

2.3k

Claude 即将发布Claude Neptune v3模型，数学能力超强

Anthropic正在测试代号"Claude Neptune v3"的新AI模型，引发行业关注。该模型目前处于内部安全测试阶段，重点评估宪法AI系统的稳健性。社交媒体反馈显示其数学推理能力突出，可能媲美OpenAI和Google的顶级模型。关于其定位存在两种猜测：可能是Claude4.5的预备版本，也可能是重大突破版本。在AI领域竞争加剧的背景下，Anthropic此举意在抢占市场先机，预计将优化上下文窗口和工具使用能力。虽然具体细节尚未公布，但已引发广泛讨论。

2025年7月7号 16:20

4.3k

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

大型语言模型（LLM）通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展，如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型，展现出强大的推理能力。然而，这种成功在不同的基础模型系列中难以复制，尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?强化学习在 Llama 模型上的扩展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破，推动了对千亿参数以下小

2025年7月3号 11:05

2.1k

智谱AI开源GLM-4.1V-Thinking:多模态推理模型再突破

智谱AI正式开源最新一代通用视觉模型GLM-4.1V-Thinking，基于GLM-4V架构，新增思维链推理机制，显著提升复杂认知任务能力。该模型支持图像、视频、文档等多模态输入，擅长长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent及代码生成等多样化场景，覆盖千行百业的应用需求。GLM-4.1V-9B-Thinking在28项权威评测中表现卓越，其中23项达成10B级模型最佳成绩，18项持平或超越72B参数的Qwen-2.5-VL，涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld等基准测试。其9亿参数规模结合高效推理能力

2025年7月2号 16:31

2.2k

通义千问发布多模态统一理解与生成模型Qwen VLo

近日，Qwen VLo多模态大模型正式发布，该模型在图像内容理解与生成方面取得了显著进展，为用户带来了全新的视觉创作体验。据介绍，Qwen VLo在继承原有Qwen-VL系列模型优势的基础上，进行了全面升级。该模型不仅能够精准“看懂”世界，更能基于理解进行高质量的再创造，真正实现了从感知到生成的跨越。用户现在可以在Qwen Chat（chat.qwen.ai）平台上直接体验这一新模型。

2025年6月28号 9:38

5.9k

扎克伯格亲自出马!Meta重金挖角OpenAI三大AI顶尖专家

Meta成功从OpenAI挖走三位顶级人工智能研究员:卢卡斯·贝耶尔（Lucas Beyer）、亚历山大·科列斯尼科夫(Alexander Kolesnikov)和翟晓华，引发业界广泛关注。这三位研究员在机器学习和计算机视觉领域享有盛誉，以开发可扩展图像模型和视觉转换器（ViT）架构的突破性工作而闻名。值得注意的是，他们此前曾在Google DeepMind工作，并于2024年底刚刚参与在苏黎世开设OpenAI办事处。针对外界关于天价签约费的传闻，贝耶尔在X平台上亲自澄清，否认了获得1亿美元签约奖金的说法。这一数字此前由OpenAI首席

2025年6月27号 9:05

2.6k

Vibemotion AI发布！一键生成动态视频，零门槛创作引爆视觉革命

近日，创新型AI公司Vibemotion推出了一款革命性的AI动态图形平台，旨在通过简单的提示和素材输入，让用户轻松创建高质量的动态视频。目前，该平台采用等候名单制访问，引发了全球内容创作者的广泛关注。AIbase为您深入解析这一平台的亮点及其对创意产业的潜在影响。一键生成动态视频，创作门槛降至新低Vibemotion的AI动态图形平台以其极简的操作体验为核心亮点。用户只需输入一个基于创意想法的文本提示，并上传少量素材（如图片或短视频片段），即可快速生成具有专业水准的动态

2025年6月26号 16:07

2.9k

Deepmind推出新一代机器人AI模型：Gemini Robotics On-Device

Google DeepMind正式发布其新一代机器人AI模型Gemini Robotics On-Device，标志着机器人AI技术迈向更高效、更独立的里程碑。这一模型不仅能够在无互联网连接的情况下在机器人本地运行，还展现出强大的通用性和任务适应能力，为工业、仓储及家庭服务机器人领域带来革命性突破。突破云端限制，机器人AI本地化运行Gemini Robotics On-Device是一款基于Google Gemini2.0打造的视觉-语言-动作（VLA）模型，最大特点是完全运行于机器人本地硬件，无需依赖云端计算资源。这解决了传统云端机器人系统在网络不

2025年6月25号 9:08

2.5k

有道推出“子曰3”模型，轻松破解数学难题，助力教育公平！

6月23日，网易有道正式推出并开源其最新的 “子曰3” 系列大模型，英文名为 Confucius3-Math。这一专注于数学教育的推理模型，能够在普通的消费级 GPU 上高效运行，成为国内首个如此低成本高性能的 AI 教育工具。在一系列数学推理任务中，“子曰3” 展现出了超越许多大规模通用模型的出色性能。“子曰3数学模型” 通过大规模的增强学习和一系列创新算法，显著提升了数学问题的解决能力。训练成本仅为2.6万美元，推理性能达到了 DeepSeek R1的15倍之高。这使得它在众多数学相关数据集上的

2025年6月23号 17:30