OpenAI发布ChatGPT宕机故障详细报告:只因一个小更改导致
上周(12月11日)OpenAI 的 ChatGPT 和 Sora 等服务发生了长达4小时10分钟的宕机事件,导致众多用户受到影响。现在,OpenAI正式发布ChatGPT宕机故障详细报告。简单的说这次故障的根本原因是一个小的变更,却导致了严重的后果,工程师们在关键时刻被锁在了控制面之外,无法及时处理问题。对于此次故障,OpenAI 的工程师在发现问题后迅速展开了多项修复工作,包括缩减集群规模、阻止对 Kubernetes 管理 API 的网络访问以及增加 Kubernetes API 服务器的资源。经过几轮努力,工程师们终于恢复了对部分