近年来,云计算的使用逐渐上升,尤其是在2020年,COVID-19疫情给各项服务带来了前所未有的挑战。

尽管云服务提供商应对其基础设施的安全性负有责任,但实际情况并非总是如此。今年发生了几起大规模故障,部分原因是用户需求激增。
例如,在12月14日,多个Google云服务和网站,包括YouTube、Gmail、Google Assistant和Google Docs,遭遇了一小时的大规模宕机。谷歌承认Gmail出现了问题,影响了其商业和个人服务,并表示正在努力解决。
这些快速解决的问题让我们开始反思,随着对少数云计算巨头服务的依赖日益加深,企业是否应该做好应对技术故障的准备,甚至考虑业务中断可能带来的经济损失。
回顾谷歌云的宕机事件,以下是2020年发生的另外三起重大云服务中断事件。
AWS,11月26日
11月,AWS再一次经历了大规模的互联网服务中断事件,这再次提醒我们,互联网应用和服务在很大程度上依赖大型科技公司的基础设施。
亚马逊在去年11月指出,其位于23个地理位置中的一个AWS区域(US-East-1)出现故障,影响了包括Roku、Adobe、Glassdoor、Autodesk和1Password在内的多家公司,以及亚马逊自身的多项服务,包括其家庭安全摄像头品牌Ring。
亚马逊的云计算部门表示,此次问题影响了其Kinesis Data Streams API及其他相关服务,包括CloudWatch、DynamoDB、Lambda、托管区块链、Rekognition、SageMaker和Workspaces等。
戴尔技术公司Boomi的首席技术官Mike Kiersey指出:“采用像AWS这样广泛的架构,必须全面集成从数据中心到每个数字服务的所有要素。”
值得注意的是,像Apple、Slack和Netflix这样的AWS主要客户似乎并未受到此次事件的影响。
Microsoft Azure,3月3日
在3月初,微软Azure云的美国东部数据中心遭遇了长达6小时的停机,限制了部分北美客户对Azure云服务的使用。微软随后透露,故障源于一个冷却系统的问题,该故障导致气流减少,造成数据中心温度过高,从而影响了网络设备的性能,使计算和存储实例无法访问。
微软最终重置了冷却系统控制器,待温度恢复正常后,工程师对硬件进行了循环再利用,以恢复服务。
随着疫情对多种云服务的压力增大,3月发生的一系列中断也影响了欧洲客户。最终,微软因未能及时解决故障而受到指责。然而,更为严重的是,在9月28日、10月1日和10月7日,微软云服务还出现了更多的故障。
Zoom,8月24日
考虑到Zoom在一年前的中断不会引起过多关注,但在今年8月的三小时停机事件中,该公司的会议和网络研讨会服务的离线状态影响了从小型牙科诊所到大型企业的广大用户。
Zoom目前每天拥有约1.15亿活跃用户,其服务已经成为2020年居家办公的代名词。然而,从8月开始,用户开始报告无法访问Zoom.US网站,无法启动或参加会议和网络研讨会。
虽然尚不清楚有多少组织、公司和学区受到影响,Zoom并未详细解释中断原因,只是在状态页面上表示已找到并解决了问题。
这三起事件提醒我们,尽管云解决方案在2020年帮助我们应对社会隔离的需求,但随着我们不断投资和依赖云计算技术,中断的频率和严重性可能会增加。或许,是时候考虑在关键任务应用程序上采用混合云策略,以确保更高的可靠性。
