吴说作者 | Colin Wu
本期编辑 | Colin Wu
老套的“蝴蝶效应”故事,在19日晚出现在中国加密行业。因为AWS东京节点冷却系统断电,导致火币首先出现严重的全网宕机,随后币安、抹茶、Coinex、库币等也陆续出现小规模的故障,可以说几乎所有中国交易所都受到了影响。
19日北京时间晚10时,火币突然出现全网故障,用户被踢出登录状态,显示网络不佳。火币方面表示,因为亚马逊云服务C区大面积网络故障导致登陆受影响,已联系对方正在修复中,客户资产安全不受影响。
11时币安、库币、抹茶APP、Coinex等等也都出现卡顿,但影响相对较小。图中是AWS节点的故障示意图与原因,目前已经是修复状态。AWS在19日日本时间晚11点发现问题,核心原因是冷却系统断电导致温度升高,日本时间20日3点30分大部分已经恢复,5点30分基本已经全部恢复。
币安公告表示,由于AWS中断影响了我们的平台以及许多其他交易所,因此币安全网今天从29日香港时间凌晨1:13 AM到4:52 AM暂时暂停了充值、提现和资金划转。
虽然几乎所有中国交易所都遇到了故障,但火币为何如此严重的原因,一位微博网友的解释如下,这一说法也得到了相关人士的认可。
“为了追求速度牺牲了高可用,强制要求所有服务全部迁移至单可用区,即此次故障的C区,于此同时并没有快捷有效的紧急应对预案,一旦出现单区故障,需要将所有服务迁移出去,数据也需要重建,时间成本非常高。”(参考独家:原阿里高管朱烨出任火币新CTO 火币高管全员首度曝光)
行业人士指,AWS日本是亚太区价格比较贵的区域,也是地震带,将单可用区域,选在AWS日本是比较不合适的选择。而客观来说,系统可用性、极致的交易性能、和成本投入是“不可能三角”,追求速度牺牲可用性,就可能导致这样的结果。
由于19日晚比特币及部分主流币持续暴涨,合约做空的投资者可能会因为无法撤单遭到损失。目前除火币以外,其他交易所故障范围较小,因此不太存在赔偿问题。火币方面表示,肯定会出台相应的赔偿方案。比较特殊的是,OKEx可能因为主要使用香港的阿里云服务器,导致在此次事件中基本没有出现故障。
币安在此次故障发生前,突然宣布暂停了以太坊及相关代币的提现,引发不少猜测与阴谋论,但迅速恢复了提现。但币安相对高发的宕机与故障频率也引发关注,究竟原因是什么?币安自身归结为流量过大,CZ称每日新增用户达到了3万人。但也有人质疑,币安上季度利润接近10亿美金,不应在技术方面舍不得投入。
专业人士指出,原因可能有以下几点:
第一,其实还是投入不够。虽然币安利润不小,但系统、软硬件方面是一个巨额投入成本,头部公司每年光维护费用可能就要达到数亿美金;第二,币圈有比较强的特殊性,7乘24小时交易、全球用户、各种不可预测的突发情况以及黑客攻击,导致维护难度非常大;第三,内部应急能力不足,没有完善的测试团队。传统互联网公司会有大量关于故障的预先演练,以及完善的机制制度。币安因为发展速度太快,很多相关制度与机制尚未跟上。
作者:吴说区块链,来源:吴说区块链real
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。