コンピュータビジョンは「見る」から「理解・対話」へシフト。認識精度の追求は限界に達し、CVPR2026では視覚を推論・意思決定・対話の仲介役と位置付け、マルチモーダルモデルによる「思考連鎖」論理展開など、適応的・暗黙的アプローチが主流に。....
テンセント・フンユアンチームがオープンソースとした動画生成高速化技術「DisCa」は、学習可能な特徴キャッシュ技術を採用し、蒸留された少ないステップのモデル上で推論コストをさらに圧縮し、生成速度を向上させました。この技術のコードとモデル重みは公開されており、CVPR2026に掲載されました。