上海人工智能实验室联合浙江大学推出IVR-Bench基准测试,首次专门评估大语言模型将视频转化为交互式网页代码的能力。该测试通过观看记录用户操作流程的视频,要求模型重建动态网页,填补了AI前端开发领域动态交互评测的空白,推动多模态大语言模型在真实场景中的应用。