中國科研團隊重磅發佈VideoChat-Flash 長視頻處理速度提升100倍
傳統的視頻理解模型在處理長視頻時面臨着許多挑戰,包括理解長視頻所帶來的複雜上下文。儘管已有不少研究致力於提升視頻理解能力,依然難以有效克服訓練和推理效率低下的問題。針對這些問題,研究團隊通過 HiCo 技術,將視頻信息中的冗餘部分進行壓縮,從而顯著降低計算需求,同時保留關鍵信息。具體而言,HiCo 通過對視頻進行層次化壓縮,將長視頻分割成短片段,進而減少處理的標記數量。這一方法不僅降低了模型對計算資源的要求,還提升了上下文窗口的寬度,增強了模型