バイトダンスが120億パラメーターを持つ動画理解モデルVidi2を発表しました。このモデルは数時間分の原始素材を処理し、ストーリーの構成を理解し、プロンプトに従ってTikTokの動画や映画のカットを生成できます。その核心的突破は、正確な時空間定位(STG)機能で、動画内の時空間的な詳細を同時に認識でき、動画編集業界を大きく変えると期待されています。