研究稱,流行的人工智能基準 LMArena 據稱有利於大型供應商
Salesforce AI Research發佈多項創新,旨在解決企業AI系統在強大智能與穩定執行力之間的差距,即“鋸齒狀智能”。核心目標是構建更智能、可信、適用於企業應用的AI代理,並向“企業通用智能”(EGI)邁進。研究重點在於量化和解決AI性能不一致性,推出了SIMPLE數據集作爲公開基準。更重要的是,Salesforce推出了CRMArena,一個模擬真實CRM場景的基準測試框架,用於全面評估AI代理在服務、分析和管理等角色中的表現。早期測試顯示,現有領先AI座席在函數調用成功率方面仍有提升空間。在模型