谷歌推出TurboQuant算法,通過PolarQuant和QJL技術,將大語言模型推理中的鍵值緩存內存需求降低至少6倍,在H100 GPU上注意力計算速度提升最高8倍,且保持零精度損失。這一突破有望降低AI部署成本,加速長上下文應用發展。
Meta發佈新一代自研AI芯片MTIA3,旨在減少對外部算力依賴。該芯片專爲推薦系統和推理任務定製,在內部測試中,其推理效能已超越英偉達H100。
馬斯克旗下xAI公司啓動全球首個吉瓦級AI訓練集羣“Colossus2”,用於驅動Grok聊天機器人。該超級計算機佔地約13個足球場,配備10萬塊英偉達H100芯片,標誌着AI算力競賽進入新階段。
Meta CEO扎克伯格親自負責AI商業化,新一代大模型“Avocado”計劃2026年春季發佈,將僅提供API和託管服務,不再開源。該模型整合了谷歌、OpenAI及阿里等第三方開源技術,目標達到前沿性能。Meta已與英偉達簽署50億美元H100訂單,專門用於模型訓練。
Anthropic
$105
輸入tokens/百萬
$525
輸出tokens/百萬
200
上下文長度
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
$6
$24
256
Baidu
-
128
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
$0.8
$0.15
$1.5
32
Deepseek
$4
$12
Tencent
$1
Mungert
基於Meta Llama-3.3-70B-Instruct的大語言模型,經過多階段訓練優化,在推理、聊天等任務上表現出色,支持多種語言,適用於多種AI應用場景。採用神經架構搜索技術優化,能夠在單個H100-80GB GPU上高效運行。