字节跳动推出Vidi多模态模型,引领超长视频理解与编辑新潮流
字节跳动宣布推出全新多模态模型Vidi,专注于视频理解与编辑,首版核心能力为精准的时间检索功能。据AIbase了解,Vidi能够处理视觉、音频和文本输入,支持长达一小时的超长视频分析,在时间检索任务上性能超越GPT-4o与Gemini等主流模型。这一突破性技术已在AI社区引发热烈讨论,相关细节通过字节跳动官方渠道与GitHub公开。核心功能:精准时间检索与多模态协同Vidi以其强大的时间检索与多模态处理能力,为视频理解与编辑提供了全新解决方案。AIbase梳理了其主要功能: 时间检索精准定位