阿里云罕见大故障:官网部分功能中断半小时

[云计算] 季雨林 2018/6/27 17:08:30

        正所谓再高的可用率,也达不到100%,本次证明这个问题的不是别人,正是阿里云自家官网。

        故障过程:(我的观察)

        1,16点35分左右,开始有人反馈登录不上,总是跳回首页

        2,17点5分左右,开始有人反馈说官网可登陆,但是很慢,可见此刻已经开始修复,只是还未恢复平稳

        3,17点10分左右,网站登陆基本恢复顺畅

        4,17点15分,有人反馈官网登陆后,控制台菜单的自定义内容已经丢失,可见本次故障跟后台数据库交互有直接关系


        其他消息:

        1,个别用户反馈自己的消息队列不能使用

        2,个别用户反馈自己的cdn业务有问题

        3,通过网站监控工具,发现全国飘红,可确认是服务端问题

        4,根据部分用户反馈:NAS存在故障,SLB存在故障,淘宝网站存在故障。这些均未小范围用户故障。


        预测一下:

        接下来会有人,把高可用理解为不会出故障,然后做迁移,然后在遇到故障再迁移,然后在遇到故障再迁移,不断迁移寻找自己的“靠谱云”


        总结学习:

        做过系统运维的人知道,每一次故障,都是一次学习总结机会,我来看下我的总结:

        阿里云官网首页能打开,可见首页是独立集群发布,可能是出于首页压力大的一种调压策略,首页有单独的服务器集群支撑

        本次故障,影响到的客户服务仅为一部分,推测,这是某个阿里云和用户公用的中间件故障。反馈自己也有故障的人不多,可见这个故障,不是网络中间环节故障,推测不是运营商线路因素。

        很多人说阿里云运维慢,事实上,对于阿里云这么大的用户体量,半小时做出有效操作,接下来即使慢慢恢复也是需要较长时间的,从我遇到的几次故障来对比衡量,阿里云的故障恢复时间已经够快

        阿里云SLA赔付协议,这个时候用上了,可见未雨绸缪的重要,接下来所有受影响用户,估计会根据协议计算赔付方案。


        


官方公告1:

【异常通告】6月27日阿里云部分产品及账号登录访问异常通告

【阿里云】【异常通告】
异常时间:
北京时间2018年6月27日16:21左右。
异常概述:于北京时间2018年6月27日16:21左右开始,阿里云官网的部分管控功能,及MQ、NAS、OSS等产品的部分功能出现访问异常,阿里云工程师正在紧急处理中,请您稍后重试。
给您带来诸多不便实在抱歉!有任何问题,可随时通过服务电话95187联系反馈。

【异常更新】
北京时间2018年6月27日 17:30
目前受影响的产品功能大部分已经恢复正常,请您确认。若还有异常,请您跟我们反馈,谢谢。

北京时间2018年6月27日 16:50
目前受影响的产品功能正在逐步恢复中,若遇到异常,请您稍等后重试。


官方公告2:

【故障说明】6月27日阿里云故障说明

6月27日下午,我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题,引发了大量吐槽。故障于北京时间2018年6月27日16:21左右开始,16:50分开始陆续恢复。

经过紧急技术复盘,故障原因如下:
当天下午,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。 后续人工介入后,工程师团队快速定位问题进行了恢复。
 

受影响范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。
 

对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。



                                                                                                                                                                                      阿里云计算有限公司
                                                                                                                                                                                          2018年6月27日



原文地址: https://www.opengps.cn/Blog/View.aspx?id=128 文章的更新编辑依此链接为准。欢迎关注源站原创文章!

评论

暂无评论!

发表评论:

用于接收作者回复信息
点击更换验证码 - openGPS提示