正所谓再高的可用率,也达不到100%,本次证明这个问题的不是别人,正是阿里云自家官网。
故障过程:(我的观察)
1,16点35分左右,开始有人反馈登录不上,总是跳回首页
2,17点5分左右,开始有人反馈说官网可登陆,但是很慢,可见此刻已经开始修复,只是还未恢复平稳
3,17点10分左右,网站登陆基本恢复顺畅
4,17点15分,有人反馈官网登陆后,控制台菜单的自定义内容已经丢失,可见本次故障跟后台数据库交互有直接关系
其他消息:
1,个别用户反馈自己的消息队列不能使用
2,个别用户反馈自己的cdn业务有问题
3,通过网站监控工具,发现全国飘红,可确认是服务端问题
4,根据部分用户反馈:NAS存在故障,SLB存在故障,淘宝网站存在故障。这些均未小范围用户故障。
预测一下:
接下来会有人,把高可用理解为不会出故障,然后做迁移,然后在遇到故障再迁移,然后在遇到故障再迁移,不断迁移寻找自己的“靠谱云”
总结学习:
做过系统运维的人知道,每一次故障,都是一次学习总结机会,我来看下我的总结:
阿里云官网首页能打开,可见首页是独立集群发布,可能是出于首页压力大的一种调压策略,首页有单独的服务器集群支撑
本次故障,影响到的客户服务仅为一部分,推测,这是某个阿里云和用户公用的中间件故障。反馈自己也有故障的人不多,可见这个故障,不是网络中间环节故障,推测不是运营商线路因素。
很多人说阿里云运维慢,事实上,对于阿里云这么大的用户体量,半小时做出有效操作,接下来即使慢慢恢复也是需要较长时间的,从我遇到的几次故障来对比衡量,阿里云的故障恢复时间已经够快
阿里云SLA赔付协议,这个时候用上了,可见未雨绸缪的重要,接下来所有受影响用户,估计会根据协议计算赔付方案。
官方公告1:
【异常通告】6月27日阿里云部分产品及账号登录访问异常通告
【阿里云】【异常通告】
异常时间:北京时间2018年6月27日16:21左右。
异常概述:于北京时间2018年6月27日16:21左右开始,阿里云官网的部分管控功能,及MQ、NAS、OSS等产品的部分功能出现访问异常,阿里云工程师正在紧急处理中,请您稍后重试。
给您带来诸多不便实在抱歉!有任何问题,可随时通过服务电话95187联系反馈。
【异常更新】
北京时间2018年6月27日 17:30
目前受影响的产品功能大部分已经恢复正常,请您确认。若还有异常,请您跟我们反馈,谢谢。
北京时间2018年6月27日 16:50
目前受影响的产品功能正在逐步恢复中,若遇到异常,请您稍等后重试。
官方公告2:
【故障说明】6月27日阿里云故障说明
6月27日下午,我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题,引发了大量吐槽。故障于北京时间2018年6月27日16:21左右开始,16:50分开始陆续恢复。
经过紧急技术复盘,故障原因如下:
当天下午,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。 后续人工介入后,工程师团队快速定位问题进行了恢复。
受影响范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。
对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。
阿里云计算有限公司
2018年6月27日
原文地址:
https://www.opengps.cn/Blog/View.aspx?id=128
文章的更新编辑依此链接为准。欢迎关注源站原创文章!