字節跳動推出Vidi多模態模型,引領超長視頻理解與編輯新潮流
字節跳動宣佈推出全新多模態模型Vidi,專注於視頻理解與編輯,首版核心能力爲精準的時間檢索功能。據AIbase瞭解,Vidi能夠處理視覺、音頻和文本輸入,支持長達一小時的超長視頻分析,在時間檢索任務上性能超越GPT-4o與Gemini等主流模型。這一突破性技術已在AI社區引發熱烈討論,相關細節通過字節跳動官方渠道與GitHub公開。核心功能:精準時間檢索與多模態協同Vidi以其強大的時間檢索與多模態處理能力,爲視頻理解與編輯提供了全新解決方案。AIbase梳理了其主要功能: 時間檢索精準定位