號稱全球最快AI推理服務問世!速度提升20倍 成本極低
Cerebras Systems推出Cerebras Inference,宣稱這是全球最快的AI推理服務,性能超越基於GPU的傳統系統20倍,成本效益顯著提高,特別適用於處理大語言模型(LLMs)。其8B版本每秒處理1800個token,70B版本則爲450個token,速度和性價比遠超NVIDIA GPU解決方案。Cerebras Inference在保持行業領先準確度的同時,價格僅爲每百萬個token10美分至60美分,相比GPU產品提升100倍。這項服務特別適合構建需要複雜實時性能的下一代AI應用,如智能代理和智能系統,並提供免費、開發者和企業三個層次的服務,滿足不同需求。Cerebras Inference的核心技術基於Cerebras CS-3系統,搭載業界領先的Wafer Scale Engine3(WSE-3),提供遠超NVIDIA H100的內存帶寬。此服務不僅推動了AI計算領域的革新,還在醫療、能源、政府、科學計算和金融服務等多個行業中發揮關鍵作用,引領AI技術發展。