最好的基准测试 AI工具模型_精选基准测试资讯 - AIBase

AI资讯

谷歌发布Gemini 3.1 Pro 推理性能较上一代提升超一倍

近日，谷歌正式推出新一代核心模型Gemini3.1Pro，标志着人工智能技术突破迈入全新阶段。 Gemini3.1Pro专为科学、工程与研究领域复杂问题量身打造，着重强化核心推理能力，在解决前沿难题的效率与精准度上实现了显著提升。官方信息显示，在多项严苛基准测试中，该模型表现优异。以评估逻辑模式处理能力的ARC-AGI-2测试为例，Gemini3.1Pro实测成绩高达77.1%，推理性能较上一代Gemini3Pro提升超一倍。为推动技术广泛普及，谷歌同步启动多渠道推

13.9k 1 分钟前

谷歌发布Gemini 3.1 Pro 推理性能较上一代提升超一倍

AI日报：蚂蚁开源大模型Ming-flash-omni 2.0；智谱GLM-5意外泄露；京东正式入局AI支付

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、蚂蚁集团开源全模态大模型Ming-flash-omni2.0：多模态理解、图像编辑与语音生成全面提升蚂蚁集团开源全模态大模型Ming-flash-omni2.0，在多项公开基准测试中表现优异，成为开源全模态大模型性能新标杆。用户现在可以指定数据源抓取，并在生成报告过程中实时干预，同时支持多种格式下载。

21.5k 2 小时前

AI日报：蚂蚁开源大模型Ming-flash-omni 2.0；智谱GLM-5意外泄露；京东正式入局AI支付

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

蚂蚁集团开源全模态大模型Ming-Flash-Omni2.0，在视觉语言理解、语音生成、图像处理等多项基准测试中表现优异，部分指标超越Gemini2.5Pro。该模型首创全场景音频统一生成能力，支持在同一条音轨中生成语音、音效和音乐，用户通过自然语言指令即可调整音色、语速等参数。

17.2k 5 小时前

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

登顶AI智商基准测试：Claude Opus 4.6 强势超车 GPT-5.2

Anthropic的Claude Opus4.6在最新Artificial Analysis智能指数中登顶，凭借在编程、代理任务和科学推理等十项测试中的卓越表现，尤其在代理工作、终端编程和物理研究课题上领先。尽管其运行成本略高于OpenAI GPT-5.2，但效率表现突出，标志着大模型竞争格局的新变化。

15.9k 6 小时前

登顶AI智商基准测试：Claude Opus 4.6 强势超车 GPT-5.2

AI产品

Kimi k2

Kimi k2

强大的开源Kimi K2聊天平台，通过Kimi AI在编程和数学基准测试中超越GPT-4。企业级Kimi AI，成本降低95%。

聊天机器人

Elimination Game

Elimination Game

一种测试大语言模型在复杂社交博弈中智能性的基准测试框架，灵感来源于‘狼人杀’游戏。

M2RAG

M2RAG

用于多模态上下文中的检索增强生成的基准测试代码库。

ZeroBench

ZeroBench

ZeroBench 是一个针对当代大型多模态模型的高难度视觉基准测试。

模型

GPT-4.1 mini

Openai

GPT-4.1 mini

$2.8

输入tokens/百万

$11.2

输出tokens/百万

1k

上下文长度

Claude 3 Opus

Anthropic

Claude 3 Opus

$105

输入tokens/百万

$525

输出tokens/百万

200

上下文长度

Claude Sonnet 4.5

Anthropic

Claude Sonnet 4.5

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

qwen-image-edit

Alibaba

qwen-image-edit

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

Doubao - Seedream - 3.0 - t2i

Bytedance

Doubao - Seedream - 3.0 - t2i

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

Qwen3-1.7B

Alibaba

Qwen3-1.7B

-

输入tokens/百万

-

输出tokens/百万

32

上下文长度

Qwen3-235B-A22B-Instruct-2507

Alibaba

Qwen3-235B-A22B-Instruct-2507

$2

输入tokens/百万

-

输出tokens/百万

64

上下文长度

Doubao-Seed-1.6-thinking

Bytedance

Doubao-Seed-1.6-thinking

$0.8

输入tokens/百万

$8

输出tokens/百万

256

上下文长度

GLM-4.5-X

Chatglm

GLM-4.5-X

$8

输入tokens/百万

$16

输出tokens/百万

128

上下文长度

Grok-4 Heavy

Xai

Grok-4 Heavy

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

o3

Openai

$14

输入tokens/百万

$56

输出tokens/百万

200

上下文长度

Gemma 3 27B

Google

Gemma 3 27B

$0.7

输入tokens/百万

$1.4

输出tokens/百万

131

上下文长度

CogView-4

Chatglm

CogView-4

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

Qwen_v2.5_3b_base

Alibaba

Qwen_v2.5_3b_base

$2

输入tokens/百万

-

输出tokens/百万

32

上下文长度

Qwen_v2_0.5b_Instruct

Alibaba

Qwen_v2_0.5b_Instruct

$1

输入tokens/百万

-

输出tokens/百万

8

上下文长度

Qwen_v2.5_0.5b_Instruct

Alibaba

Qwen_v2.5_0.5b_Instruct

$2

输入tokens/百万

-

输出tokens/百万

128

上下文长度

kimi-k2-0905-preview

Moonshot

kimi-k2-0905-preview

$1

输入tokens/百万

$16

输出tokens/百万

262

上下文长度

Gemini 1.5 Flash 8B

Google

Gemini 1.5 Flash 8B

$0.49

输入tokens/百万

$2.1

输出tokens/百万

1k

上下文长度

ERNIE-4.5-VL-424B-A47B-Paddle

Baidu

ERNIE-4.5-VL-424B-A47B-Paddle

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

Grok-1.5

Xai

Grok-1.5

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

MCP

openmanus

Openmanus

OpenManus是一个无需邀请码即可实现各种想法的开源项目，由MetaGPT团队成员在3小时内构建完成。它提供了一个简单的实现，允许用户创建自己的智能代理，并支持多种语言和配置。项目欢迎建议、贡献和反馈，未来计划包括更好的规划、实时演示、回放功能、RL微调模型和全面的基准测试。

vLLM Benchmark

VLLM Benchmark

一个基于MCP的vLLM交互式性能测试工具原型

mcp-server-tester-po4

Mcp Server Tester Po4

MCP服务器测试工具是一个配置驱动的测试解决方案，用于验证、基准测试和确保与AI模型集成的MCP服务器的可靠性。它支持自动发现工具、生成智能测试用例、执行验证并生成详细报告。

locallama-mcp

Locallama Mcp

LocaLLama MCP Server是一个智能路由服务，通过动态决策将编码任务分配给本地LLM或付费API，以优化成本。包含成本监控、决策引擎、API集成、错误处理和性能基准测试等核心模块，支持与多种工具集成。

autogpt-26r

Autogpt 26r

AutoGPT是一个开源AI代理框架，旨在让每个人都能轻松构建和使用AI代理。项目提供Forge工具链简化开发流程，包含基准测试、用户界面和CLI工具，支持通过Agent Protocol标准实现兼容性，并设有竞技场排行榜激励开发者优化代理性能。

meshseeks

Meshseeks

MeshSeeks是一个基于多代理并行处理技术的AI任务解决平台，通过创建专业化的AI代理网络，实现复杂编码问题的快速分解与协同解决。项目提供4倍上下文容量、实时状态面板和智能任务协调功能，显著提升开发效率（基准测试显示速度提升3.64倍）。

goku

Goku

Goku是一个高性能、可扩展的HTTP负载测试工具，专为Web服务的基准测试和性能分析设计。它支持结构化实时指标和详细的性能分析，适用于工程师高效模拟和分析流量。

AWorld

AWorld

AWorld是一个多智能体系统框架，旨在弥合理论MAS能力与实际应用之间的差距，提供从单智能体到多智能体协作/竞争的全套解决方案。项目支持浏览器/手机操作、GAIA基准测试等场景，采用客户端-服务器架构，集成丰富工具链，并包含性能评估与训练功能。

AIBase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2026AIBase

商务合作网站地图