今年2月AT&T服务中断事件引起了联邦监管机构的关注。9月,Verizon客户又发现出了问题。某家网络安全厂商的更新导致全球Windows机器崩溃。这些都是2024年全球面临的最大云服务故障事件。
本文提到的事件主要涉及对解决方案提供商特别重要的云中断故障,而跳过了消费级产品的故障,例如Meta Facebook和Instagram,后者在3月5日发生的故障被Downdetector母公司Ookla评为今年最大的故障事件,有超过1110万人提交了关于该事件的报告。
2024年云故障
可观测性技术提供商New Relic在今年10月发布了一份基于对全球1700名技术专业人员进行调查的报告。报告显示,高影响中断事件造成的年平均停机时间为77小时,每小时高达190万美元的收入、生产力损失以及其他费用。
该报告发现,有工程团队表示,他们每40小时的工作周中,有12小时(30%的时间)花在了解决服务中断的问题上。网络故障、第三方或云提供商服务故障、以及人为错误是导致计划外中断事件的主要原因。
数据库供应商Cockroach Labs在今年10月发布了一份题为《2025 年弹性状况》的报告,报告对全球1000名高级技术主管进行了调查,报告发现有84%的受访者表示,他们在过去12个月内因服务中断而损失了至少10000美元的收入。有三分之一的受访者表示,他们的损失在10万美元到100万美元之间。
下面就让我们看看2024年最大的这10个云故障事件。
1月数据库升级导致Jira服务瘫痪
Atlassian今年的开局并不顺利,它的Jira项目管理工具从UTC时间1月18日6:52开始向用户发出503条服务不可用消息和其他错误警告,持续了大约四个小时。
ThousandEyes表示,Jira服务已经于UTC时间10:30恢复正常运行。根据ThousandEyes 在2月2日发布的报告显示,这些问题影响了澳大利亚Atlassian提供的Jira Work Management、Jira Software、Jira Product Discovery等服务。
Atlassian把Jira产品系列性能下降归因于“内部Atlassian Marketplace服务的预定数据库升级”。
“这种性能下降表现为响应时间增加并最终超时,服务降级随后连锁上行,导致Jira系列产品的请求超时,影响产品体验。”
2月AT&T中断引起FCC关注
2月22日,AT&T用户报告了这家电信巨头的服务出现中断,包括互联网访问中断。Downdetector记录有超过340万份用户报告,问题持续了超过12个小时。
2月25日,AT&T公司首席执行官John Stankey在一份声明中表示,此次中断似乎是“由于在扩展网络时应用和执行了错误流程而导致的”,并向受中断影响的客户提供了5美元的信用额度。
7月,联邦通信委员会(Federal Communications Commission,FCC)发布了一份关于该事件的报告,将原因归咎于缺乏同行评审、安装后测试不足、没有足够的保障措施和控制措施以获得影响网络变更的批准以及其他因素。
报告指出,AT&T已经做出改变以防止问题再次发生,包括“扫描网络以查找任何缺乏可防止中断控制措施的网络元素,并及时实施这些控制措施”。报告称,该事件已经被提交到执法局“以查明可能违反委员会规则的第4部分和第9部分”。
Downdetector母公司Ookla称这是2024年全球第三大中断事件,也是自2020年以来全球最大的运营商中断故障。
2月元数据存储给Google Cloud带来麻烦
ThousandEyes在3月1日发布的帖子中表示,2月14日,区域元数据存储问题导致Google Cloud us-west1用户遭遇服务中断。
据Google称,该事件持续了大约2小时40分钟。“我们的工程团队通过隔离有问题的流量来缓解问题,并已经采取了措施防止再次发生,”Google将此归咎于区域元数据存储出现了问题。
此次中断事件影响了各种Google Cloud产品、Vertex AI产品、身份和访问管理(IAM)。
CrowdStrike更新故障
可以说,今年最严重的中断事件就是CrowdStrike的更新故障,导致全球数百万台微软Windows机器崩溃,而且这次事件仍然没有结束,达美航空围绕该航空公司五天内取消7000架航班的责任与CrowdStrike互相起诉。
在这次中断事件之后,微软重新审视了安全技术供应商为Windows开发产品的方式。去年11月微软表示,正在研究一种方法,让安全产品避免直接访问Windows内核,并像应用一样在用户模式下运行。
CrowdStrike对内核(Windows的核心控制中心)的访问已经被确定为导致7月19日CrowdStrike Falcon更新故障让850万台Windows设备进入“蓝屏死机”状态的关键因素,这次事件导致大范围的商业混乱甚至是社会混乱。
7月微软中断故障
除了CrowdStrike更新故障之外,微软在7月还遭遇了服务中断问题。
据ThousandEyes报道,7月30日,Azure Front Door (AFD)、Azure Content Delivery Network (CDN)以及依赖它们的下游服务遭遇中断,微软网络的部分功能在UTC时间10:30左右出现故障。
微软将这次事件归咎于默认流量路由在自动缓解一次DDoS攻击和欧洲某站点断电后未能按预期恢复。
微软在事后报告中表示,服务可用性已经在UTC时间19:43恢复到事发前的水平。微软表示,通过确保一个地区的DDoS缓解问题不会蔓延到其他地区,改进监控和无效配置检测,降低此次事件再次发生的可能性,减少事件带来的影响。
9月AT&T和微软出现故障
据微软称,9月12日,AT&T用户无法访问Microsoft 365和Azure服务,原因是“第三方互联网服务提供商事件影响了部分客户能力”。
微软在X上的一篇文章中表示,此次中断故障是由第三方互联网服务提供商托管环境中未指明的“变化”所引起的,该提供商在其他地方被认定是AT&T。
ThousandEyes将这个问题描述为“仅限于直接从或通过AT&T对等点连接到微软网络的部分用户”。
微软在Azure状态页面上表示,在大约90分钟的时间里,“使用AT&T连接到微软服务的客户在访问我们的服务时遇到了问题”。
微软的事件后报告称,这一问题从UTC时间11:46一直持续到UTC时间13:14。
ServiceNow中断故障
UTC时间9月23日2:00左右,约有600名客户开始遭遇ServiceNow中断故障,原因是过期根证书更新失败。
根据ThousandEyes对该问题的报道,管理、检测和发现 (MID)服务器受到中断故障的影响,一些客户发现云实例和服务器之间存在连接问题。
报告称:“此次中断故障提醒我们,数字生态系统或端到端交付链中的每项功能,在保持无缝运营方面都发挥着关键作用,应用或服务的强度取决于其最薄弱的环节。”
9月Verizon出现问题
9月30日,美国Verizon服务出现中断故障,Downdetector记录了超过170万份报告。
从纽约到洛杉矶的用户都报告称没有服务或服务受限,只有“SOS模式”除外,该模式允许用户通过返回覆盖范围内的其他运营商网络拨打紧急电话。
Downdetector将问题的开始时间定为美国东部时间上午9:30左右,Verizon在美国东部时间上午11:48在X上发布了有关该问题的帖子。仅在上午11:15至11:30之间就有超过10万份事件报告提交,报告总数已超过40万份。
Verizon表示,该问题在大约10小时后美国东部时间晚上7:18得到解决。
Cloudflare关于此次中断故障的帖子中称,HTTP流量在中断期间比预期水平下降了9%,内布拉斯加州奥马哈等地的流量下降了约30%。
Downdetector母公司Ookla将9月Verizon的故障事件列为2024年全球最大的故障事件之一,在美国排名第四,有240万用户提交了报告。
10月Salesforce中断故障
10月1日,CRM软件巨头Salesforce经历了全球服务中断,沙盒实例在UTC时间2:40以50%的容量运行。
“在受影响期间,用户可能无法访问Salesforce服务,而另一部分用户虽然可以登录,但性能不佳,”Salesforce在11月的一份关于该问题的报告中表示。“在中断和性能下降期间,用户可能收到了‘我们正在维护’的故障消息。”
Salesforce关于这次中断故障的报告称,“由于可并行升级的单元数量容量限制,紧急版本的全面推出耗时14小时,手动抑制重启和添加缺失的元数据”减轻了影响。
Salesforce将这次中断归咎于“缺少时间特定配置”,“阻止了核心应用服务器的启动。”
11月微软中断故障
就在感恩节前一天多,微软Outlook和Teams产品出现中断,使其登上了新闻媒体头条新闻。
11月26日CNN表示,有超过5000名用户报告了该问题。微软于太平洋时间11月25日凌晨1:06发现问题,并报告该问题已于太平洋时间11月26日下午12:07得到解决。微软将这次中断故障归咎于“最近的一次变化”。
ThousandEyes表示,从UTC时间11月25日2:00开始,它观察到Outlook在线和其他微软产品出现了服务器错误、超时和数据包丢失。