谷歌推出TurboQuant算法,通过PolarQuant和QJL技术,将大语言模型推理中的键值缓存内存需求降低至少6倍,在H100 GPU上注意力计算速度提升最高8倍,且保持零精度损失。这一突破有望降低AI部署成本,加速长上下文应用发展。
Meta发布新一代自研AI芯片MTIA3,旨在减少对外部算力依赖。该芯片专为推荐系统和推理任务定制,在内部测试中,其推理效能已超越英伟达H100。
马斯克旗下xAI公司启动全球首个吉瓦级AI训练集群“Colossus2”,用于驱动Grok聊天机器人。该超级计算机占地约13个足球场,配备10万块英伟达H100芯片,标志着AI算力竞赛进入新阶段。
Meta CEO扎克伯格亲自负责AI商业化,新一代大模型“Avocado”计划2026年春季发布,将仅提供API和托管服务,不再开源。该模型整合了谷歌、OpenAI及阿里等第三方开源技术,目标达到前沿性能。Meta已与英伟达签署50亿美元H100订单,专门用于模型训练。
Xai
$1.4
输入tokens/百万
$3.5
输出tokens/百万
2k
上下文长度
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
-
$6
$24
256
Baidu
128
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
Mungert
基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段训练优化,在推理、聊天等任务上表现出色,支持多种语言,适用于多种AI应用场景。采用神经架构搜索技术优化,能够在单个H100-80GB GPU上高效运行。