谷歌推出TurboQuant算法,通过PolarQuant和QJL技术,将大语言模型推理中的键值缓存内存需求降低至少6倍,在H100 GPU上注意力计算速度提升最高8倍,且保持零精度损失。这一突破有望降低AI部署成本,加速长上下文应用发展。
Meta发布新一代自研AI芯片MTIA3,旨在减少对外部算力依赖。该芯片专为推荐系统和推理任务定制,在内部测试中,其推理效能已超越英伟达H100。
马斯克旗下xAI公司启动全球首个吉瓦级AI训练集群“Colossus2”,用于驱动Grok聊天机器人。该超级计算机占地约13个足球场,配备10万块英伟达H100芯片,标志着AI算力竞赛进入新阶段。
微软开源图像转3D工具TRELLIS.2,仅需一张图片即可快速生成带材质的3D模型,输出.glb格式文件,兼容Blender、Unity等平台。该工具采用4B模型,支持512³至1536³分辨率图像处理,在NVIDIA H100显卡上,生成512³模型仅需约3秒。
实时对比各云服务提供商H100、H200等GPU实例价格,找最优方案。
提供高性能GPU出租服务,包括B200、H200、RTX4090、H100等型号。即时部署,价格透明。
Google
$0.7
输入tokens/百万
$2.8
输出tokens/百万
1k
上下文长度
Alibaba
$0.75
-
256
Openai
$0.63
$3.15
131
$1
$4
$8.75
$70
$0.5
32
Tencent
$2.4
$9.6
$1.5
$1.6
Moonshot
$8
$32
262
$0.49
$2.1
Chatglm
FastVideo
FastVideo团队推出的图像转视频模型,属于CausalWan2.2 I2V A14B系列,支持8步推理,能适配从H100到4090等多种GPU,也支持Mac用户使用。
pytorch
这是由PyTorch团队使用torchao进行量化的Qwen3-8B模型,采用int4仅权重量化和AWQ算法。该模型在H100 GPU上可减少53%显存使用并实现1.34倍加速,专门针对mmlu_abstract_algebra任务进行了校准优化。
jet-ai
Jet-Nemotron-4B是NVIDIA推出的高效混合架构语言模型,基于后神经架构搜索和JetBlock线性注意力模块两大核心创新构建,在性能上超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等开源模型,同时在H100 GPU上实现了最高53.6倍的生成吞吐量加速。
Jet-Nemotron是一个新型混合架构语言模型家族,超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等最先进的开源全注意力语言模型,同时实现了显著的效率提升——在H100 GPU上生成吞吐量最高可达53.6倍加速。
Mungert
基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段训练优化,在推理、聊天等任务上表现出色,支持多种语言,适用于多种AI应用场景。采用神经架构搜索技术优化,能够在单个H100-80GB GPU上高效运行。
Phi-4-mini-instruct模型经torchao进行float8动态激活和权重量化,在H100上实现36%显存降低和15-20%速度提升,几乎不影响精度。