号称全球最快AI推理服务问世!速度提升20倍 成本极低
Cerebras Systems推出Cerebras Inference,宣称这是全球最快的AI推理服务,性能超越基于GPU的传统系统20倍,成本效益显著提高,特别适用于处理大语言模型(LLMs)。其8B版本每秒处理1800个token,70B版本则为450个token,速度和性价比远超NVIDIA GPU解决方案。Cerebras Inference在保持行业领先准确度的同时,价格仅为每百万个token10美分至60美分,相比GPU产品提升100倍。这项服务特别适合构建需要复杂实时性能的下一代AI应用,如智能代理和智能系统,并提供免费、开发者和企业三个层次的服务,满足不同需求。Cerebras Inference的核心技术基于Cerebras CS-3系统,搭载业界领先的Wafer Scale Engine3(WSE-3),提供远超NVIDIA H100的内存带宽。此服务不仅推动了AI计算领域的革新,还在医疗、能源、政府、科学计算和金融服务等多个行业中发挥关键作用,引领AI技术发展。