为了测试这些AI的"抗压能力",一群研究者玩起了"大冒险"。他们搞了一个叫Self-Contradictory Instructions(SCI)的测试,简直就是AI界的"死亡挑战"。这个测试包含了20,000个自相矛盾的指令,涵盖了语言和视觉两大领域。比如,给你看一张猫咪照片,却让你描述这只"狗"。这不是为难人吗?哦不,是为难AI。
Alibaba
$2
Input tokens/M
-
Output tokens/M
256
Context Length
Bytedance
$1.6
$4
128
$0.75
Openai
$8.75
$70
400
64
$15
1k
Iflytek
$0.3
32
$0.5
Google
$140
$280
$0.8
$0.2
$1.5
$4.5
$3
$9
$17.5
Tencent
$8
28
$14
$56
131