上海人工智能實驗室聯合浙江大學推出IVR-Bench基準測試,首次專門評估大語言模型將視頻轉化爲交互式網頁代碼的能力。該測試通過觀看記錄用戶操作流程的視頻,要求模型重建動態網頁,填補了AI前端開發領域動態交互評測的空白,推動多模態大語言模型在真實場景中的應用。