谷歌推出TurboQuant算法,通過PolarQuant和QJL技術,將大語言模型推理中的鍵值緩存內存需求降低至少6倍,在H100 GPU上注意力計算速度提升最高8倍,且保持零精度損失。這一突破有望降低AI部署成本,加速長上下文應用發展。
Meta發佈新一代自研AI芯片MTIA3,旨在減少對外部算力依賴。該芯片專爲推薦系統和推理任務定製,在內部測試中,其推理效能已超越英偉達H100。
馬斯克旗下xAI公司啓動全球首個吉瓦級AI訓練集羣“Colossus2”,用於驅動Grok聊天機器人。該超級計算機佔地約13個足球場,配備10萬塊英偉達H100芯片,標誌着AI算力競賽進入新階段。
微軟開源圖像轉3D工具TRELLIS.2,僅需一張圖片即可快速生成帶材質的3D模型,輸出.glb格式文件,兼容Blender、Unity等平臺。該工具採用4B模型,支持512³至1536³分辨率圖像處理,在NVIDIA H100顯卡上,生成512³模型僅需約3秒。
即時對比各雲服務提供商H100、H200等GPU實例價格,找最優方案。
提供高性能GPU出租服務,包括B200、H200、RTX4090、H100等型號。即時部署,價格透明。
Google
$0.7
輸入tokens/百萬
$2.8
輸出tokens/百萬
1k
上下文長度
Alibaba
$0.75
-
256
Openai
$0.63
$3.15
131
$1
$4
$8.75
$70
$0.5
32
Tencent
$2.4
$9.6
$1.5
$1.6
Moonshot
$8
$32
262
$0.49
$2.1
Chatglm
FastVideo
FastVideo團隊推出的圖像轉視頻模型,屬於CausalWan2.2 I2V A14B系列,支持8步推理,能適配從H100到4090等多種GPU,也支持Mac用戶使用。
pytorch
這是由PyTorch團隊使用torchao進行量化的Qwen3-8B模型,採用int4僅權重量化和AWQ算法。該模型在H100 GPU上可減少53%顯存使用並實現1.34倍加速,專門針對mmlu_abstract_algebra任務進行了校準優化。
jet-ai
Jet-Nemotron-4B是NVIDIA推出的高效混合架構語言模型,基於後神經架構搜索和JetBlock線性注意力模塊兩大核心創新構建,在性能上超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等開源模型,同時在H100 GPU上實現了最高53.6倍的生成吞吐量加速。
Jet-Nemotron是一個新型混合架構語言模型家族,超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等最先進的開源全注意力語言模型,同時實現了顯著的效率提升——在H100 GPU上生成吞吐量最高可達53.6倍加速。
Mungert
基於Meta Llama-3.3-70B-Instruct的大語言模型,經過多階段訓練優化,在推理、聊天等任務上表現出色,支持多種語言,適用於多種AI應用場景。採用神經架構搜索技術優化,能夠在單個H100-80GB GPU上高效運行。
Phi-4-mini-instruct模型經torchao進行float8動態激活和權重量化,在H100上實現36%顯存降低和15-20%速度提升,幾乎不影響精度。