Coinbase 復盤 5 月宕機事件:AWS 級聯故障暴露架構風險

By: rootdata|2026/06/01 21:43:26
0
分享
copy

ChainCatcher 消息,Coinbase 發布對 2026 年 5 月 7 日大規模服務中斷事件的復盤報告。

此次故障持續約 8 小時,完整恢復耗時約 12 小時,期間交易、充值、提現及多數核心服務均出現不可用或嚴重降級。Coinbase 表示,故障起因是 AWS us-east-1 區域某可用區(use1-az4)數據中心冷卻系統多台製冷機同時失效,引發機櫃熱保護停機,導致 EC2 實例與 EBS 卷下線,並波及多項互聯網服務。

在恢復過程中,Coinbase 交易撮合引擎因部署在單一 AWS 機房的集群架構失去多數節點而喪失 quorum,需緊急通過代碼調整與新節點組重建恢復運行,並在恢復過程中逐步重啟市場交易。

此外,AWS 托管 Kafka(MSK)服務出現控制平面故障,導致分區主節點無法自動重新選舉,進一步阻斷報價、手續費及部分結算與數據流系統,擴大了整體影響範圍。

Coinbase 與 AWS 工程團隊協作進行手動分區遷移後,系統逐步恢復正常。Coinbase 表示,此次事件暴露出其在跨可用區自動切換能力及托管中間件容災方面的不足。公司將升級跨區域熱備架構、強化定期故障演練,並將 Kafka 系統由雙可用區遷移至三可用區部署,同時與 AWS 共同推進根因修復與改進。

猜你喜歡

熱門幣種

最新加密貨幣要聞

閱讀更多
iconiconiconiconiconiconiconiconicon
客戶服務:@weikecs
商務合作:@weikecs
量化做市商合作:bd@weex.com