谷歌推出 LMEval:統一評估大語言與多模態模型的新工具
近日,谷歌宣佈推出 LMEval,這是一個開源框架,旨在簡化和標準化對大型語言和多模態模型的評估。該工具爲研究人員和開發者提供了一個統一的評估流程,可以方便地對來自不同公司的 AI 模型進行比較,比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。以往,對新 AI 模型的比較往往比較複雜,因爲各個提供商使用自己的 API、數據格式和基準設置,導致評估效率低下且難以進行。因此,LMEval 應運而生,它通過標準化評估流程,使得一旦設置好基準,就能輕鬆地將其應用於任何支持