OpenAI与Cerebras合作推出GPT-5.3-Codex-Spark模型,专为实时编程优化,解决AI编程中的“等待焦虑”。该模型利用Cerebras晶圆级引擎实现超高速推理,速度突破1000tokens/s,实现代码生成与思绪同步的即时反馈。
OpenAI加速推进“去英伟达化”战略,于2026年2月12日发布首款基于Cerebras芯片的AI模型GPT-5.3-Codex-Spark。该模型专为软件工程师设计,提供更灵活的交互体验,支持即时中断与切换,使开发者能随时暂停冗长计算,快速处理其他紧急编码任务。
加州芯片公司Cerebras Systems完成10亿美元融资,估值达230亿美元,一年内增长近三倍。其独创的晶圆级引擎技术突破传统芯片架构,获得硅谷风投Benchmark Capital领投,显示市场对非GPU算力路线的看好。
Cerebras完成10亿美元H轮融资,估值飙升至230亿美元。本轮由Tiger Global领投,AMD战略参与。距离上轮81亿美元估值仅四个月,增长迅猛。
AI即时推理解决方案,速度领先世界。
bartowski
这是通过REAP方法对MiniMax-M2均匀裁剪25%的专家得到的172B参数大语言模型,专门针对llama.cpp进行了优化量化处理,支持多种量化级别,可在LM Studio或基于llama.cpp的项目中运行。
这是一个基于REAP方法对MiniMax-M2中40%专家进行均匀剪枝得到的139B参数大语言模型,采用GLM架构和专家混合(MoE)技术,通过llama.cpp进行多种量化处理,适用于文本生成任务。
DevQuasar
本项目提供了cerebras/MiniMax-M2-REAP-172B-A10B模型的量化版本,致力于让知识为大众所用。这是一个1720亿参数的大型语言模型,经过优化和量化处理,旨在降低部署成本和提高推理效率。
cerebras
MiniMax-M2-REAP-162B-A10B是MiniMax-M2的高效压缩版本,采用REAP(路由加权专家激活剪枝)方法,在保持性能几乎不变的情况下将模型大小减少30%,从230B参数压缩到162B参数,显著降低了内存需求。
MiniMax-M2-REAP-172B-A10B是MiniMax-M2的内存高效压缩变体,采用REAP专家剪枝方法,在保持性能几乎不变的情况下,模型大小减轻了25%,从230B参数压缩至172B参数。
noctrex
这是GLM-4.5-Air-REAP-82B-A12B模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该模型基于cerebras的GLM-4.5-Air-REAP-82B-A12B基础模型,通过MXFP4混合专家量化技术实现,在保持性能的同时显著减小模型体积和推理成本。
danielus
该模型是cerebras/Qwen3-Coder-REAP-25B-A3B的GGUF格式转换版本,使用llama.cpp工具进行格式转换和量化处理。原始模型是一个25B参数的大语言模型,专门针对代码生成任务进行优化。
这是Cerebras公司Qwen3-Coder-REAP-25B-A3B模型的量化版本,使用llama.cpp的imatrix技术进行量化处理,能够在减少模型存储空间和计算资源需求的同时保持模型性能。
GLM-4.5-Air-REAP-82B-A12B 是 GLM-4.5-Air 的高效压缩版本,通过 REAP 剪枝技术将参数规模从 106B 压缩到 82B,减少 25% 内存需求,同时保持近乎无损的性能表现。
RedHatAI
基于Meta的Llama-2-7B模型,使用UltraChat 200k数据集进行聊天任务微调的语言模型。该模型由Neural Magic和Cerebras联合开发,支持高效的稀疏迁移和推理加速。
preemware
基于Cerebras-GPT-6.7B微调的网络安全专用模型,具备基础对话能力
BTLM-3B-8k-chat是基于BTLM-3B-8K-base开发的对话版本,采用DPO方法优化,专为符合人类偏好的对话场景设计。
BTLM-3B-8k-base是一个具有8k上下文长度的30亿参数语言模型,基于6270亿token的SlimPajama数据集训练而成,性能可媲美开源70亿参数模型。
Cerebras-GPT 13B 是一个基于开放架构和数据集训练的大语言模型,属于Cerebras-GPT系列,旨在研究大语言模型的缩放定律并展示在Cerebras软硬件栈上的训练简易性和可扩展性。
Cerebras-GPT 2.7B 是基于 Transformer 架构的语言模型,旨在助力大语言模型的研究,可作为自然语言处理等领域的基础模型。
Cerebras-GPT 590M是基于Transformer架构的语言模型,属于Cerebras-GPT模型家族,旨在研究大语言模型扩展规律并展示在Cerebras软硬件栈上训练大语言模型的简便性和可扩展性。
Cerebras-GPT系列中的111M参数模型,采用GPT-3风格架构,使用The Pile数据集训练,遵循Chinchilla扩展定律实现计算最优。