在2024年12月27日凌晨,OpenAI发布了一则公告,通报了其旗下聊天机器人ChatGPT、视频生成模型Sora以及API服务遭遇的重大故障。这些服务自美国东部时间12月26日下午1:30左右开始出现宕机现象,持续数小时之久。根据网络状况监测网站Downdetector的数据,在问题发生当天下午,有超过15,000名用户报告遇到了问题,主要集中在ChatGPT上。到了傍晚时分,这一数字已锐减至不足700份报告。
OpenAI的官方声明中指出,此次故障导致ChatGPT、API和Sora的错误率显著升高,问题根源在于“上游提供商”。尽管OpenAI没有明确提及具体的“上游提供商”,但值得注意的是,微软作为OpenAI独家云服务提供商,在同一时间段内报告了一个数据中心出现了“电源问题”,影响范围覆盖北美地区,并且该事件同样对Xbox云游戏服务造成了干扰。微软随后确认,在美国东部时间12月26日下午5点稍过,已经完全恢复了受影响数据中心的电力供应。
截至夏末,ChatGPT的日活跃用户量超过了2亿人次,而OpenAI的产品线在过去也曾经历过多起类似的宕机事件。最近的一次大规模中断发生在12月11日,即Sora发布的几天之后,那次事故使得OpenAI旗下的所有服务——包括ChatGPT、API和Sora——经历了长达四个多小时的服务性能急剧下降甚至完全不可用的情况。这次故障的原因被归结为新部署的遥测服务配置失误,这引发了全球数百个Kubernetes集群控制平面的过载,最终导致了一系列关键系统的连锁故障。
随着技术的发展和服务需求的增长,即使是像OpenAI这样的领先科技公司也会面临基础设施和服务稳定性方面的挑战。此次事件再次提醒我们,确保云端服务和相关设施的高度可靠性和弹性是至关重要的,尤其是在面对可能影响到大量用户的故障时。