Salesforce AI 推全新大語言模型評估家族SFR-Judge 基於Llama3構建
在自然語言處理領域,大型語言模型(LLMs)的發展迅速,已經在多個領域取得了顯著的進展。不過,隨着模型的複雜性增加,如何準確評估它們的輸出就變得至關重要。傳統上,我們依賴人類來進行評估,但這種方式既耗時又難以規模化,無法跟上模型快速發展的步伐。爲了改變這種現狀,Salesforce AI 研究團隊推出了 SFR-Judge,這是一個由三個大型語言模型組成的評估家族。這些模型分別擁有80億、120億和700億個參數,基於 Meta Llama3和 Mistral NeMO 構建。SFR-Judge 能夠執行多種評估任務,包括成