Video ReCap模型是一项开源的视频字幕生成技术,能够处理从1秒到2小时的视频,并在不同层级上生成分层视频字幕。通过使用递归视频语言架构,包括视频编码器、视频-语言对齐和递归文本解码器三大模块,该模型能够在不同的时间长度和抽象层级上理解视频,并生成精确且层次丰富的视频描述字幕。实验证明递归架构对于生成段描述和视频摘要的重要性。此外,通过该模型生成的分层视频字幕还能显著提升基于EgoSchema数据集的长视频问答效果。