近日,NVIDIA正式宣佈與Meta建立一項爲期多年、跨世代的戰略合作伙伴關係。根據雙方達成的協議內容,Meta計劃在其超大規模的AI數據中心內部署數百萬顆NVIDIA的Blackwell GPU,以及專爲智能體AI推理量身打造的下一代Rubin架構GPU,以強化其AI算力基礎。
英偉達承諾優先向韓國供應下一代Vera Rubin GPU,並提前提供Blackwell GB300,以支持韓國科技發展。
Runway發佈最新視頻生成模型Gen-4.5,專爲創作者、影視製作人和企業用戶設計,即將向所有訂閱層級開放。該模型在文本轉視頻基準測試中以1247分領先,超越谷歌Veo3等競品,成爲當前最強文生視頻模型。其卓越性能得益於先進的NVIDIA Hopper與Blackwell GPU平臺支持。
微軟Azure ND GB300v6虛擬機在Llama270B模型上創下每秒110萬token推理速度新紀錄。該成就基於與英偉達的深度合作,採用配備72個Blackwell Ultra GPU和36個Grace CPU的NVIDIA GB300NVL72系統,突顯微軟在規模化AI運算領域的專業實力。
Openai
$2.8
輸入tokens/百萬
$11.2
輸出tokens/百萬
1k
上下文長度
-
Bytedance
$0.8
$2
128
Alibaba
$0.4
$8.75
$70
400
$1.75
$14
$0.35
64
$0.63
$3.15
131
$1.8
$5.4
16
Tencent
32
$17.5
$56
$0.7
$2.4
$9.6
Google
$0.14
$0.28
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8是基於GLM-4.5-Iceblink-v2-106B-A12B模型,採用最先進的混合專家量化方法進行FP8量化的版本。該模型專門針對支持硬件FP8的Ada、Hopper或Blackwell系列GPU優化,在保持高質量輸出的同時顯著提升推理效率。
QuantStack
這是基於Danrisi的Flux架構文本到圖像模型UltraReal Fine-Tune的Nunchaku量化(SVDQ)版本。該模型提供了兩種量化格式:INT4適用於非Blackwell架構GPU(50系列之前),NVFP4適用於Blackwell架構GPU(50系列),旨在降低硬件需求同時保持圖像生成質量。
spooknik
這是UltraReal Fine-Tune模型的SVDQ量化版本,由Danrisi基於Flux開發,是一款文本到圖像生成模型。該版本提供了多種量化方案,適配不同GPU硬件,特別針對非Blackwell系列和Blackwell系列GPU進行了優化。
這是Project0模型的SVDQ量化版本,基於Flux Dev和Flux Krea創建的文本到圖像模型。該模型提供了多種量化格式,針對不同GPU架構進行了優化,包括INT4和FP4量化版本,適用於Blackwell和非Blackwell GPU用戶。