我国首部《人工智能大模型系列国家标准》正式实施,从性能、安全、服务三大维度为通用大模型建立统一规范,填补了技术评估与合规的制度空白,推动产业从“野蛮生长”迈向科学规范的新阶段。
12月22日,智谱华章发布并开源新一代大模型GLM-4.7。该模型在多项国际基准测试中表现突出,尤其在编码领域表现卓越,综合性能超越GPT-5.2,在权威编码评估平台Code Arena中位列开源与国产模型双榜首,重点面向编程场景。
印度支付巨头Paytm与美国硬件公司Groq合作,将利用GroqCloud云端服务提升AI模型性能,优化交易处理、风险评估、欺诈检测和消费者互动。GroqCloud基于自主研发的语言处理单元,专注于AI推理,旨在增强Paytm平台的智能化水平。
美团LongCat团队推出UNO-Bench基准测试,系统评估多模态模型能力。该基准覆盖44种任务类型和5种模态组合,包含1250个全模态样本(跨模态可解性98%)及2480个增强单模态样本,全面测试模型在单模态与全模态场景下的性能表现。
Selene API 是一款用于评估 AI 应用性能的先进工具,提供精准的评分和反馈。
自动化AI语音代理测试与性能分析平台,提供真实场景模拟与评估。
用于评估Windows PC或Apple Mac上AI推理引擎性能的基准测试工具。
用于衡量设备 AI 加速器推理性能的基准测试工具。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Anthropic
$7
$35
200
Google
$2.1
$17.5
$21
$105
Alibaba
$4
$16
$1
$10
256
Baidu
-
128
$1.6
$0.4
$1.75
$14
400
$15
Huawei
32
Chatglm
Tencent
$0.8
$2
$0.3
EpistemeAI
metatune-gpt20b是一个具有自改进能力的大语言模型原型,能够为自身生成新数据、评估自身性能,并根据改进指标调整超参数。该模型在博士后水平的科学和数学理解方面表现出色,同时也可用于编码任务。
beyoru
Qwen3-4B-I-1509是基于Qwen3-4B-Instruct-2507基础模型微调而来的专用模型,专注于工具使用和函数调用生成任务。该模型采用多信号奖励的强化学习方法进行训练,在多个评估基准中展现出良好的性能表现。
Simia-Agent
本模型是基于Qwen/Qwen2.5-7B-Instruct在2and3_apps_30k_v6数据集上微调的大语言模型,在评估集上取得了0.1593的损失值,表现出良好的性能。
codewithdark
DiffusionLLM是基于扩散模型的文本生成项目,使用wikitext-103-v1数据集训练,专注于高质量文本生成任务。该项目采用transformers库和PyTorch框架,通过BLEU指标评估性能,遵循MIT开源许可证。
bolu61
该模型是在未知数据集上从头开始训练的,在评估集上取得了不错的性能表现,能够为相关任务提供有效支持。
Triangle104
DS-R1-Distill-Q2.5-14B-Harmony_V0.1 是一个基于预训练语言模型合并而成的模型,使用 mergekit 工具和 SLERP 合并方法将多个预训练模型融合而成,在多个文本生成任务的评估中展现出了一定的性能表现。
nguyenkhoa
本模型是基于Transformer库的人脸活体检测模型,在评估集上取得了优异的性能。
ixxan
基于OpenAI Whisper Small在维吾尔语Common Voice数据集上微调的语音识别模型,专门针对维吾尔语语音识别任务进行了优化,在评估集上取得了较好的性能表现。
fsicoli
这是OpenAI Whisper-large-v3模型在cv19-fleurs数据集上的微调版本,专门针对葡萄牙语语音识别任务进行了优化。该模型在评估集上取得了0.0756的字错率(WER),表现出优秀的语音转文本性能。
BarraHome
Mistroll-7B-v2.2是一个基于Unsloth和Huggingface TRL库开发的文本生成模型,实现了2倍速训练。该模型是一个实验性项目,旨在测试和完善训练与评估管道研究框架,重点关注数据工程、架构效率和评估性能的优化。
CobraMamba
Mamba-GPT-7b-v2是基于Mistral-7B-v0.1微调的大语言模型,在多个评估任务中超越原模型,30亿参数规模下性能可与LLaMA-7b相媲美,是目前表现最佳的30亿参数模型之一。
WeOpenML
基于PandaLM项目优化的原版Alpaca-7B大语言模型,使用PandaLM选定的最优超参数进行指令调优,在Hugging Face大语言模型开放排行榜上进行了性能评估
yuvalkirstain
PickScore v1 是一个针对文本生成图像的评分函数,可用于预测人类偏好、评估模型性能和图像排序等任务。
rajistics
这是基于 Microsoft LayoutLMv3-base 模型在 CORD 数据集上微调的文档理解模型,专门用于收据文档的文本和布局信息提取,在评估集上取得了优秀的性能表现(F1值 0.9541)。
GleamEyeBeast
ascend是基于GleamEyeBeast/ascend微调的模型,主要用于语音识别任务,在评估集上取得了词错误率0.6412和字符错误率0.2428的性能。
TransQuest
TransQuest是一个开源的翻译质量评估框架,支持句子级和词汇级的质量评估,性能超越当前最优方法。
gchhablani
基于google/fnet-base在GLUE COLA数据集上微调的文本分类模型,用于评估FNet与BERT架构的性能对比
moussaKam
FrugalScore是一种高效的自然语言生成评估指标,通过知识蒸馏技术将大型教师模型的性能迁移到小型学生模型上,以低成本实现高质量的文本评估。
birgermoell
基于MC4数据集训练的瑞典语RoBERTa模型,性能尚待评估。
MCPBench是一个用于评估MCP服务器性能的框架,支持Web搜索和数据库查询两种任务的评估,兼容本地和远程服务器,主要评估准确性、延迟和令牌消耗。
Nano Agent是一个实验性的小型工程代理MCP服务器,支持多提供商LLM模型,用于测试和比较云端与本地LLM在性能、速度和成本方面的代理能力。项目包含多模型评估系统、嵌套代理架构和统一工具接口,支持OpenAI、Anthropic和Ollama等提供商。
一个基于AI的NPM包分析MCP服务器,提供实时安全扫描、依赖分析、性能评估等功能,集成Claude和Anthropic AI技术,优化npm生态管理。
Mandoline MCP服务器是一个AI助手评估框架,通过Model Context Protocol为Claude和Cursor等AI助手提供自定义评估指标创建、批量评分和性能分析工具,帮助AI持续改进自身表现。
PageSpeed MCP服务器是一个连接AI助手与谷歌PageSpeed Insights API的桥梁,为AI模型提供网站性能分析功能,包括核心性能指标、SEO评估、可访问性审计和资源优化建议。
NPM Sentinel MCP是一个基于AI的NPM包分析服务器,提供实时安全扫描、依赖分析、性能评估等功能,支持与Claude和Anthropic AI集成,优化NPM生态管理。
Ollama-MCP-server是一个连接本地Ollama LLM实例与MCP兼容应用的协议服务器,提供任务分解、结果评估、模型管理等功能,支持标准化通信和性能优化。
Lighthouse MCP Server是一个基于Google Lighthouse的模型上下文协议服务器,提供全面的网站性能审计和分析功能,包括性能评分、可访问性检查、SEO分析和安全评估。
一个基于Model Context Protocol的服务,提供Google PageSpeed Insights网页性能分析功能,使AI模型能通过标准化接口评估网页加载表现。
PostgreSQL MCP服务器提供数据库分析、配置指导和问题调试功能,支持性能优化、安全评估及常见问题排查。
Ollama-MCP-server是一个连接本地Ollama大语言模型的中间件服务器,通过Model Context Protocol协议提供任务分解、结果评估和模型管理功能,支持标准化通信和性能优化。
AWorld是一个多智能体系统框架,旨在弥合理论MAS能力与实际应用之间的差距,提供从单智能体到多智能体协作/竞争的全套解决方案。项目支持浏览器/手机操作、GAIA基准测试等场景,采用客户端-服务器架构,集成丰富工具链,并包含性能评估与训练功能。