Best 2026年测试 AI Tools & Models - Premium 2026年测试 News

AI News

具身智能告别“野蛮生长”:首个行业标准正式发布，6月起实施

具身智能领域迎来首个行业标准，由中国信通院联合40余家单位起草，将于2026年6月实施。标准构建了统一基准测试框架，明确系统构成与能力要求，为行业提供技术评价准绳，推动行业从无序走向规范。

2.2亿月活背后的野心:豆包内测AI电商，“一句话下单”电商闭环

字节跳动AI助手豆包于2026年3月启动AI电商功能灰度测试，将大模型深度融入电商交易。该功能主打“一句话购物”，利用自然语言理解能力，用户仅需模糊表达需求，系统即可精准匹配商品、提供建议并直达下单，大幅简化购物流程。截至2025年底，豆包月活用户已达2.26亿。

17.2k 17 hours ago

315央视点名AI大模型“投毒”乱象，触发生成式安全治理新升级

2026年央视“3·15”晚会曝光AI大模型遭恶意“投毒”现象，点名北京力思文化传媒有限公司运营的“力擎GEO优化系统”。该系统涉嫌批量生成虚假产品信息与推广文章，利用生成式AI抓取机制误导模型。测试显示，即便输入虚构硬件参数，系统仍能协助用户传播不实信息，扰乱AI训练数据。

12.4k 15 hours ago

xAI发布Grok4.20:推理性能提升显著，不幻觉率78%创行业纪录

2026年3月12日，xAI发布新一代大语言模型Grok4.20 Beta。该模型在保持价格优势的同时，以极高的事实可靠性创下行业新纪录。在启用推理功能的智能指数评估中，Grok4.20获得48分，较前代提升6分。虽然其综合基准测试得分（57分）仍略低于Gemini3.1Pro Preview和GPT-5.4，但在AA全知测试中表现突出，非幻觉率高达78%。

22k 15 hours ago

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Doubao - Seedream - 3.0 - t2i

Bytedance

Input tokens/M

Output tokens/M

Context Length

Qwen3-1.7B

Alibaba

Input tokens/M

Output tokens/M

Context Length

Doubao-Seed-1.6-thinking

Bytedance

$0.8

Input tokens/M

Output tokens/M

256

Context Length

GLM-4.5-X

Chatglm

Input tokens/M

$16

Output tokens/M

128

Context Length

Grok-4 Heavy

Xai

Input tokens/M

Output tokens/M

Context Length

o3

Openai

$14

Input tokens/M

$56

Output tokens/M

200

Context Length

Gemma 3 27B

Google

$0.7

Input tokens/M

$1.4

Output tokens/M

131

Context Length

CogView-4

Chatglm

Input tokens/M

Output tokens/M

Context Length

Qwen_v2.5_3b_base

Alibaba

Input tokens/M

Output tokens/M

Context Length

Qwen_v2_0.5b_Instruct

Alibaba

Input tokens/M

Output tokens/M

Context Length

Qwen_v2.5_0.5b_Instruct

Alibaba

Input tokens/M

Output tokens/M

128

Context Length

kimi-k2-0905-preview

Moonshot

Input tokens/M

$16

Output tokens/M

262

Context Length

Gemini 1.5 Flash 8B

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

ERNIE-4.5-VL-424B-A47B-Paddle

Baidu

Input tokens/M

Output tokens/M

Context Length

Grok-1.5

Xai

Input tokens/M

Output tokens/M

Context Length

GLM-4

Chatglm

$100

Input tokens/M

$100

Output tokens/M

128

Context Length

Yi-6B-Chat

01-ai

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map