大家好,我是R哥。

昨天腾讯云崩了,事情大概是这样的,15 点多的时候有好几位粉丝向我反馈,说小程序「Java面试库」不能正常加载答案,我看了下后台系统日志,发现腾讯云环境 API 接口调用异常

然后发现小程序开发工具和云开发环境也进不去了:

心里判定大概率是腾讯云出了故障,于是我跑去平台交流社区看了下,果然发现满屏的小程序和腾讯云故障的问题

腾讯云控制台也进不去了:

明确了是腾讯云的故障,我紧急向「Java面试库」微信群发布了故障通知,在和粉丝的沟通中,也有粉丝说客户用的腾讯云 API 也报错了:

大约等到 16:40 左右,腾讯云小程序云环境部分终于恢复了,但粉丝反馈说腾讯云控制台还是死的:

同时,我了解到此次故障可能是由于全面升级云存储解决方案造成的,升级的目标是使数据清洗和训练耗时缩短一半,结果此消息刚发没多久,云产品就全线崩溃。。

从 15 点多发生故障,再到 17:16 彻底恢复,整个过程耗时超过一个半小时,全年不可用时间超过 90 分钟,这意味着腾讯云的 2024 年度 SLA 服务可用性已经达不到 4 个 9 了,即 99.99%

达到 99.99% 需要全年不可用时间不超过 52.6 分钟,关于 SLA 服务可用性的计算可以参考这篇:SLA 服务可用性 4 个 9 是什么意思?怎么达到?

虽然现在的互联网用户都对云故障习以为常了,包容性也更强了,但这么长时间不可用,这对目前来说严重依赖云服务的企业来说是不可接受的,可能会面临巨大损失。


最后,此事件也让我吸取教训了。

我对小程序「Java面试库」作了以下调整优化:

一、服务降级

当遇到不可抗力的故障外,给出降级策略:

1、调用云环境 API 接口部分,采用缓存策略,定时拉取最新数据并缓存到本地,如果调用 API 失败即使用本地缓存,这样可以做到 99% 的用户不受云环境 API 故障影响。

2、不在缓存中的数据,提醒用户类似如 “腾讯云故障,官方正在修复中,请稍候重试…” 的友好说明,避免对面试库产生误会。

二、定期备份数据

虽然腾讯云有定期备份策略,但关键的数据还得自己备份存档,以防止意外发生。


最近面试的人还挺多了,小程序「Java面试库」所用的腾讯云带宽都开始报警了:

不过还好,只是偶尔的高峰而已,外网出带宽使用率还没超过平均值,有面试需要的来小程序「Java面试库」刷题吧,面试库更新了 3 年+,从 0 更新到现在 2500+ 道题,帮助很多小伙伴找到了工作,也有不少进入大厂的案例。

昨天小程序因官方故障,有个粉丝说他 5 点还有面试:

看来不少人对我的Java 面试题依赖还挺深,裁员越来越多,刷题面试找工作的人也越来越多,今年我也会继续优化和升级服务,尽可能保证刷题可用性和稳定性。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注