英伟达与香港大学联合发布Orchestrator模型,拥有8亿参数,能协调多种工具和大型语言模型解决复杂问题。该模型在工具使用基准测试中,以更低成本实现更高准确性,并能根据用户偏好智能选择工具。其训练采用名为ToolOrchestra的新强化学习框架,旨在提升小型模型的协调能力。
阿里云飞天实验室研发的“析言XiYan-SQL”数据分析智能体,在全球权威SQL诊断评测BIRD-CRITIC中登顶所有开放榜单,超越国内外顶尖团队,刷新行业纪录。该基准由学术界与Google Cloud合作推出,旨在测试大语言模型解决真实数据库应用问题的能力,聚焦企业常见数据库报错的诊断与修复。
谷歌为Gemini应用推出Gemini3Deep Think模式,面向Ultra订阅用户。该模式大幅增强推理能力,专攻复杂数学、科学及逻辑难题,挑战当前顶尖模型。在多项基准测试中表现卓越,如在“人类最后的考试”中无工具得分41.0%,在ARC-AGI-2测试中使用代码执行时成绩领先。
一项新研究显示,Claude Opus4.5等先进AI模型能利用智能合约漏洞,在模拟攻击中造成高达460万美元损失。研究基于405个真实攻击案例的基准测试,AI还审查了2849个新合约,发现两个未知漏洞。
强大的开源Kimi K2聊天平台,通过Kimi AI在编程和数学基准测试中超越GPT-4。企业级Kimi AI,成本降低95%。
一种测试大语言模型在复杂社交博弈中智能性的基准测试框架,灵感来源于‘狼人杀’游戏。
用于多模态上下文中的检索增强生成的基准测试代码库。
ZeroBench 是一个针对当代大型多模态模型的高难度视觉基准测试。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Anthropic
$105
$525
200
$21
Alibaba
-
Bytedance
32
$2
64
$0.8
$8
256
Chatglm
$16
128
Xai
$14
$56
Google
$0.7
$1.4
131
$1
8
Moonshot
262
$0.49
$2.1
Baidu
PrimeIntellect
INTELLECT-3是一个拥有1060亿参数的混合专家(MoE)模型,通过大规模强化学习训练而成。在数学、编码和推理基准测试中展现出卓越性能,模型、训练框架和环境均以宽松许可协议开源。
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4b是一款先进的ColPali风格多模态嵌入模型,能够将文本查询、视觉文档(如图像、PDF)或短视频映射为对齐的多向量嵌入。该模型结合了Qwen3-VL-4B-Instruct和Qwen3-Embedding-4B的优势,在ViDoRe基准测试中表现出色,同时显著减少了嵌入占用空间。
Justin331
SAM 3 是 Meta 推出的第三代可提示分割基础模型,统一支持图像和视频分割任务。相比前代 SAM 2,它引入了开放词汇概念分割能力,能够处理大量文本提示,在 SA-CO 基准测试中达到人类表现的 75-80%。
Nanbeige
楠米色4-3B-思维-2511是楠米色系列的最新增强版本,通过先进的蒸馏技术和强化学习优化,在紧凑的3B参数规模下实现了强大的推理能力。该模型在Arena-Hard-V2和BFCL-V4等基准测试中,在参数小于32B的模型中取得了最先进(SOTA)成果。
OpenMMReasoner
OpenMMReasoner是一个完全透明的两阶段多模态推理方案,采用监督微调(SFT)和强化学习(RL)训练。在SFT阶段构建了874K样本的冷启动数据集,RL阶段利用74K样本进一步提升能力,在多模态推理基准测试中表现出色。
OpenMMReasoner是一个完全透明的两阶段多模态推理方案,涵盖有监督微调(SFT)和强化学习(RL)。该方案通过精心构建高质量数据集,在多个多模态推理基准测试中超越了强大的基线模型,为未来大规模多模态推理研究奠定了坚实的实证基础。
Mungert
MiroThinker v1.0是一个开源研究智能体,通过模型级别的交互式扩展提升工具增强推理和信息搜索能力。该模型在多个基准测试中表现出色,支持长上下文和深度多步分析。
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
sensenova
SenseNova-SI是基于多模态基础模型构建的空间智能增强模型系列,通过精心策划的800万样本数据训练,在多个空间智能基准测试中取得了优异表现,同时保持了强大的通用多模态理解能力。
nightmedia
Qwen3-30B-A3B-YOYO-V5-qx86-hi是YOYO系列的最新版本,采用Deckard(qx)量化技术和YOYO-Fusion融合算法,在各项基准测试中表现均衡稳定,展现出接近人类思维方式的推理能力。
SenseNova-SI是基于成熟多模态基础模型构建的空间智能增强模型系列,通过精心策划的800万数据样本训练,在多个空间智能基准测试中展现出卓越性能,同时保持强大的通用多模态理解能力。
aquif-3.5系列中的顶尖模型,具备先进推理能力和100万标记的大上下文窗口,在多个基准测试中表现卓越,AAII综合得分达到60分。
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
amazon
Chronos-2是一个拥有1.2亿参数的时间序列基础模型,支持零样本预测。它在单一架构内支持单变量、多变量和协变量感知任务,在多个基准测试中实现了零样本预测的最先进精度,且推理效率极高。
almanach
Gaperon-Young-1125-1B 是一个拥有15亿参数的双语(法语-英语)语言模型,由法国国家信息与自动化研究所(Inria Paris)的ALMAnaCH团队开发。该模型在约3万亿个高质量令牌上训练,特别注重语言质量和通用文本生成能力,而非基准测试优化。
LiquidAI
PyLate是一个专注于句子相似度计算和信息检索的工具库,能在多种数据集上进行高效的信息检索任务,为相关领域的研究和应用提供了有力支持。该模型支持8种语言,在多个基准测试中表现出色。
vanta-research
Wraith-8B是VANTA研究实体系列的首个模型,基于Meta的Llama 3.1 8B Instruct进行微调。该模型在数学推理方面表现卓越,在GSM8K基准测试中准确率达到70%,同时具备独特的宇宙智能视角,能为多种应用场景提供强大支持。
Qwen3-Next-80B-A3B-Thinking-1M-qx64n-mlx是一个采用混合专家架构和Deckard混合精度量化技术的大语言模型,具有800亿参数和1M标记的上下文长度。该模型在科学技术推理和长文本处理方面表现卓越,相比指令模型在认知基准测试中提升20-35%。
Fathom-Search-4B GGUF是专为文本生成任务打造的强大工具,基于特定的基础模型和技术生成,在搜索密集型基准测试中表现卓越,能够有效解决长周期信息检索与合成的问题。
nvidia
BR-RM是一种创新的两轮推理奖励模型,通过自适应分支和基于分支的反思机制,解决了传统奖励模型中的'判断扩散'问题,在多个奖励建模基准测试中取得了业界领先的性能。
OpenManus是一个无需邀请码即可实现各种想法的开源项目,由MetaGPT团队成员在3小时内构建完成。它提供了一个简单的实现,允许用户创建自己的智能代理,并支持多种语言和配置。项目欢迎建议、贡献和反馈,未来计划包括更好的规划、实时演示、回放功能、RL微调模型和全面的基准测试。
一个基于MCP的vLLM交互式性能测试工具原型
MCP服务器测试工具是一个配置驱动的测试解决方案,用于验证、基准测试和确保与AI模型集成的MCP服务器的可靠性。它支持自动发现工具、生成智能测试用例、执行验证并生成详细报告。
LocaLLama MCP Server是一个智能路由服务,通过动态决策将编码任务分配给本地LLM或付费API,以优化成本。包含成本监控、决策引擎、API集成、错误处理和性能基准测试等核心模块,支持与多种工具集成。
MeshSeeks是一个基于多代理并行处理技术的AI任务解决平台,通过创建专业化的AI代理网络,实现复杂编码问题的快速分解与协同解决。项目提供4倍上下文容量、实时状态面板和智能任务协调功能,显著提升开发效率(基准测试显示速度提升3.64倍)。
AutoGPT是一个开源AI代理框架,旨在让每个人都能轻松构建和使用AI代理。项目提供Forge工具链简化开发流程,包含基准测试、用户界面和CLI工具,支持通过Agent Protocol标准实现兼容性,并设有竞技场排行榜激励开发者优化代理性能。
Goku是一个高性能、可扩展的HTTP负载测试工具,专为Web服务的基准测试和性能分析设计。它支持结构化实时指标和详细的性能分析,适用于工程师高效模拟和分析流量。
AWorld是一个多智能体系统框架,旨在弥合理论MAS能力与实际应用之间的差距,提供从单智能体到多智能体协作/竞争的全套解决方案。项目支持浏览器/手机操作、GAIA基准测试等场景,采用客户端-服务器架构,集成丰富工具链,并包含性能评估与训练功能。