

亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)從都柏林數(shù)據(jù)中心停電事故中學(xué)到了很多的經(jīng)驗教訓(xùn).該公司表示,他們已經(jīng)從此次事件中充分總結(jié)了經(jīng)驗教訓(xùn),將改善數(shù)據(jù)中心電源冗余、負載均衡以及當云計算出現(xiàn)故障時的通信的方式。
檢驗報告對造成停電的原因進行了深入的研究,此次停電事故影響到了亞馬遜的EC2(彈性計算云Elastic Compute Cloud)、EBS(彈性數(shù)據(jù) 塊存儲Elastic Block Store)、關(guān)系數(shù)據(jù)庫服務(wù)以及亞馬遜的網(wǎng)絡(luò)。服務(wù)中斷從八月七日上午10:41開始,當時亞馬遜的的公用事業(yè)供應(yīng)商 遭受了變壓器故障。起初,被認為是由雷擊造成的,但供應(yīng)商認為那不是真實的原因,據(jù)亞馬遜表示,該事件目前還在繼續(xù)調(diào)查中。
通常情況下,當主電源發(fā)生故障,電力負荷將無縫啟動備用發(fā)電機。可編程邏輯控制器(PLC)保證在電氣階段在線聯(lián)機同步發(fā)電機。但在這 種情況下,PLC沒有完成其任務(wù),可能是因為一個大的接地故障,從而導(dǎo)致一些發(fā)電機的失敗,據(jù)亞馬遜介紹,為了避免再次發(fā)生類似事件,亞馬遜將增加冗余,并隔離其PLC,使他們與其他故障絕緣。
亞馬遜的云基礎(chǔ)設(shè)施分為地理區(qū)域(Region Zone)和可用區(qū)域(Availability Zone)。所謂的地理區(qū)域:例如,在都柏林的數(shù)據(jù)中心,又被稱為西歐聯(lián)盟區(qū)域,由一個或多個可用性區(qū)域組成,它們被設(shè)計為與同一地區(qū)的其他區(qū)域中的故障絕緣。這種想法是源于方便客戶可以使 用多個區(qū)域,以提高可靠性,亞馬遜用來簡化工作。
在中斷時間內(nèi),西歐聯(lián)盟可用區(qū)域的多家曾采用了EC2和EBS卷的客戶并沒有經(jīng)歷服務(wù)中斷,據(jù)亞馬遜介紹。但是,管理服務(wù)器超載導(dǎo)致了停電,對整個地理地區(qū)都造成了影響。
為了避免再次發(fā)生這種情況,亞馬遜將實現(xiàn)更好的負載平衡。此外,在過去的幾個月中,亞馬遜已經(jīng)“進一步發(fā)展了隔離EC2控制面板元件, 以消除因一個可用性區(qū)域可能的延遲或失敗對我們處理調(diào)用其他可用性區(qū)域能力所帶來的影響。這項工作仍在進行之中,將需要幾個月的時間來完成,據(jù)亞馬遜介紹說。
亞馬遜服務(wù)的最大的問題來自于其EBS,是用來存儲EC2的數(shù)據(jù)的。通過耐用性和可用性的節(jié)點服務(wù)復(fù)制整個卷中的數(shù)據(jù)。之后,停運的節(jié)點 便開始互相復(fù)制更改。亞馬遜其實有能力做到這一點,只是此次的數(shù)據(jù)流量太大。
當一個卷中的所有節(jié)點都同時斷電,在某些情況下,亞馬遜必須通過匯集恢復(fù)快照重新創(chuàng)建數(shù)據(jù)。而產(chǎn)生這些快照的過程是相當費時的,因為亞馬遜已經(jīng)將所有的數(shù)據(jù)都移動到了亞馬遜簡單存儲服務(wù)(S3)進行處理,將其變成了快照存儲格式,然后使用戶可以通過他們的賬戶訪問數(shù)據(jù)。
亞馬遜表示,截至8月10日下午8:25,98%的恢復(fù)快照均已交付,剩下的需要手動。
對于EBS中,亞馬遜的目標將是在一次重大停電事故之后大大縮減其恢復(fù)時間。他們會做到的,例如,在恢復(fù)供電后,直接在EBS服務(wù)器恢復(fù) 卷,而無需將數(shù)據(jù)移動到其他地方。
提供的存儲服務(wù)不僅僅只是受到了停電的影響,而且還受到不同的軟件和人為因素的影響,當硬件故障沒有正確處理時,這種現(xiàn)象就會發(fā)生。
因此,一些數(shù)據(jù)塊被錯誤地標記為刪除。后來,在作進一步數(shù)據(jù)分析時發(fā)現(xiàn)了這些錯誤標簽,但人為檢查過程中卻沒有發(fā)現(xiàn)刪除過程被執(zhí)行了,據(jù)亞馬遜介紹。為了防止再次發(fā)生,他們正在建立一個新的報警功能,將提醒亞馬遜任何異常情況的發(fā)生。
用戶如何能夠體驗到這種斷電也取決于這些受斷電影響的公司是否及時的進行了更新。
“客戶對于他們在斷電恢復(fù)期間應(yīng)該做些什么的焦慮心情是可以理解的。”亞馬遜表示。盡管該公司盡了最大努力保證了用戶在第一時間的 知情權(quán),但他們?nèi)匀淮嬖谟写倪M的地方。例如,他們可以加快早期響應(yīng)的速度,派遣工作人員支持團隊,更早的告訴用戶他們的資源是否受到了影響,亞馬遜表示。
該公司正在研發(fā)后者的工具,并希望能在未來幾個月的時間里問世。
亞馬遜同時還為斷電停運事故進行了道歉,將給予受影響的用戶服務(wù)折扣。 EC2/EBS和RDS數(shù)據(jù)庫的用戶將獲得相當于10天的服務(wù)折扣。此外,受到EBS軟件bug影響的公司將獲得30天的EBS服務(wù)折扣。服務(wù)折扣將會自動從未來的AWS的合同中扣除。