发现与 Industry Benchmark 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
开放式多模态实验室姿态估计工具箱和基准测试
OpenCompass是一个大型语言模型(LLM)评估平台,支持Llama3、Mistral、InternLM2、GPT-4、LLaMa2、Qwen、GLM、Claude等100多个数据集和多种模型的评估。
Silero模型:提供预训练的语音转文本、文本转语音和文本增强模型,使用极其简单。
开放式MMLab新一代视频理解工具箱和基准测试
百度智能科技开发的一系列大型语言模型
SWE-bench(多模态):语言模型能解决现实中的 GitHub 问题吗?
百度智能科技开发的一款拥有130亿参数的大型语言模型
大型语言模型的统一评估框架
用于基准测试图神经网络的代码库(JMLR 2023)
FlashRAG:一个用于高效检索增强生成研究的Python工具包(WWW2025资源)
处理各种非结构化数据,例如反向图片搜索、音频搜索、分子搜索、视频分析、问答系统、自然语言处理等等。
【NeurIPS 2024】OSWorld:在真实计算机环境中对开放式任务的多模态智能体的基准测试
【ECCV 2024】用于多模态理解的视频基础模型与数据
用于日志解析的机器学习工具包(发表在ICSE'19和DSN'16会议上)
MLPerf训练基准的参考实现
关于基于大型语言模型的长文本建模,必读论文和博客
高效的检索增强与生成框架
这篇调查论文“大型语言模型的评估综述”的官方GitHub页面。
对大型语言模型生成代码的严格评估——NeurIPS 2023 & COLM 2024
用街霸3格斗来评测大型语言模型!评估LLM质量的新方法