Best 错误检测数据集 AI Tools & Models - Premium 错误检测数据集 News

AI News

大模型竟在“装傻”！研究发现它们知道正确答案却故意说错

一项由以色列理工学院主导的最新研究表明，大型语言模型（LLM）可能“深藏不露”，掌握的知识比实际表现出来的更多。研究人员发现，LLM 的内部表征编码了关于其输出正确性的信息，即使它们最终生成了错误的答案，也能在内部识别出正确答案。该研究团队重点分析了 LLM 在长文本生成中的错误，这更贴近其在现实世界中的应用场景。他们构建了一个错误检测数据集，通过比较模型生成的答案与真实答案来判断其正确性，并以此为基础，研究 LLM 内部表征中编码真实性信号的位置。研

14k 1 days ago

Models

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

GPT-5

Openai

$8.75

Input tokens/M

$70

Output tokens/M

400

Context Length

GPT-5 mini

Openai

$1.75

Input tokens/M

$14

Output tokens/M

400

Context Length

GPT-5 nano

Openai

$0.35

Input tokens/M

$2.8

Output tokens/M

400

Context Length

Claude Opus 4.1

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.5 Pro Preview 06-05

Google

$8.75

Input tokens/M

$70

Output tokens/M

Context Length

Pangu-NLP-N2-Reasoner-128K-5.0.0.1

Huawei

Input tokens/M

Output tokens/M

128

Context Length

o4-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

Claude 3 Haiku

Anthropic

$1.75

Input tokens/M

$8.75

Output tokens/M

200

Context Length

Claude 3.5 Haiku

Anthropic

$5.6

Input tokens/M

$28

Output tokens/M

200

Context Length

Starcoder2_3b

Bigcode

Input tokens/M

Output tokens/M

Context Length

Gemini 1.5 Flash

Google

$1.05

Input tokens/M

$4.2

Output tokens/M

Context Length

Grok-2

Xai

$14

Input tokens/M

$70

Output tokens/M

128

Context Length

Grok-2 mini

Xai

Input tokens/M

Output tokens/M

Context Length

PP-UIE-14B

Baidu

Input tokens/M

Output tokens/M

Context Length

Claude 3.5 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

GPT-4

Openai

$210

Input tokens/M

$420

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map