GitHub因AI计算资源压力暂停新个人订阅,AI代理工作流导致算力需求远超预期,引发服务与预算矛盾。
大语言模型推理效率迎来突破。清华大学与Moonshot AI联合提出“预填充即服务”新架构,通过将推理过程拆分为预填充和解码两个阶段,并优化算力资源分配,有效解决硬件限制问题,显著提升模型服务性能。
谷歌正与Marvell合作开发两款定制AI芯片,旨在减少对英伟达的依赖,强化自身云服务竞争力。此举凸显科技巨头在算力领域的激烈竞争。
OpenAI与芯片公司Cerebras达成新协议,未来三年将支付超200亿美元购买其服务器算力,并可能获得股权。此前双方已有合作,今年1月OpenAI计划三年内采购价值超100亿美元的计算能力。新协议规模更大,OpenAI还将提供约10亿美元资助Cerebras开发数据中心,未来三年总支出或达300亿美元。
提供稳定高效的 AI 算力及 GPU 租赁服务。
专注于 GPU 算力云服务,提供高效算力解决方案。
Anthropic
$7
输入tokens/百万
$35
输出tokens/百万
200
上下文长度
$21
$105
Iflytek
$2
-
$1.75
$8.75
Google
Baichuan
4