世界最速AI推論サービスが登場!速度20倍向上、コスト大幅削減
Cerebras SystemsがCerebras Inferenceを発表。世界最速のAI推論サービスと謳い、GPUベースの従来システムと比較して20倍の性能向上と大幅なコスト削減を実現。特に大規模言語モデル(LLM)の処理に最適です。8Bバージョンでは毎秒1800トークン、70Bバージョンでは毎秒450トークンを処理し、NVIDIA GPUソリューションをはるかに凌駕する速度とコスト効率を実現します。Cerebras Inferenceは…