当前视频处理系统能识别画面内容,但难以理解复杂物理规律和空间移动,如判断车辆通过顺序或物体轨迹最高点。主要原因是高质量运动参考数据严重不足,现有数据规模小且依赖昂贵人工识别,限制了系统计算能力。
Openai
-
Input tokens/M
Output tokens/M
Context Length
Anthropic
$21
$105
200
Google
$0.7
$2.8
1k
$8.75
$70
400
$1.75
$14
$0.35
$525
$7.7
$30.8
$5.6
$28
Minimax
$1.05
$4.2
Xai
128
$210
$420
32