字节跳动发布120亿参数视频理解模型Vidi2,能处理数小时原始素材,理解故事脉络,并根据提示生成TikTok短视频或电影片段。其核心突破是精细时空定位(STG)功能,可同时识别视频中的时空细节,有望颠覆视频编辑行业。