具身智能领域迎来首个行业标准,由中国信通院联合40余家单位起草,将于2026年6月实施。标准构建了统一基准测试框架,明确系统构成与能力要求,为行业提供技术评价准绳,推动行业从无序走向规范。
字节跳动AI助手豆包于2026年3月启动AI电商功能灰度测试,将大模型深度融入电商交易。该功能主打“一句话购物”,利用自然语言理解能力,用户仅需模糊表达需求,系统即可精准匹配商品、提供建议并直达下单,大幅简化购物流程。截至2025年底,豆包月活用户已达2.26亿。
2026年央视“3·15”晚会曝光AI大模型遭恶意“投毒”现象,点名北京力思文化传媒有限公司运营的“力擎GEO优化系统”。该系统涉嫌批量生成虚假产品信息与推广文章,利用生成式AI抓取机制误导模型。测试显示,即便输入虚构硬件参数,系统仍能协助用户传播不实信息,扰乱AI训练数据。
2026年3月12日,xAI发布新一代大语言模型Grok4.20 Beta。该模型在保持价格优势的同时,以极高的事实可靠性创下行业新纪录。在启用推理功能的智能指数评估中,Grok4.20获得48分,较前代提升6分。虽然其综合基准测试得分(57分)仍略低于Gemini3.1Pro Preview和GPT-5.4,但在AA全知测试中表现突出,非幻觉率高达78%。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Anthropic
$105
$525
200
$21
Bytedance
-
Alibaba
32
$0.8
$8
256
Chatglm
$16
128
Xai
$14
$56
Google
$0.7
$1.4
131
$2
$1
8
Moonshot
262
$0.49
$2.1
Baidu
$100
01-ai
4