3 人團隊忙不過(guò)來(lái)造成存儲硬件燒毀,微軟承認旗下 Azure 園區“人力安排不足”
IT之家 9 月 5 日消息,微軟旗下 Azure 澳大利亞數據中心園區上周經(jīng)歷了一次大規模故障,數據中心的電力供應能力下降導致兩個(gè)數據大廳的冷卻設備斷電,由于員工人數“不足”難以應對,最終導致部分存儲硬件被燒毀,包括澳大利亞昆士蘭銀行和捷星航空在內的大型企業(yè)客戶(hù)服務(wù)完全中斷。
本文引用地址:http://dyxdggzs.com/article/202309/450244.htm▲ 捷星航空當時(shí)發(fā)布的服務(wù)中斷報告
微軟承認現場(chǎng)沒(méi)有足夠的工作人員,而且其應急程序也沒(méi)有考慮到問(wèn)題的規模,在事故發(fā)生時(shí),數據中心只安排了 3 名工作人員,他們都相當盡責地 “執行了記錄在案的應急操作程序 (EOP),但最終沒(méi)取得有成功”。
▲ 圖源 微軟針對事件發(fā)布的報告(PIR)
IT之家經(jīng)過(guò)查詢(xún)得知,兩個(gè)受影響數據大廳的冷卻能力 “由七個(gè)冷卻器組成,其中五個(gè)冷卻器處于運行狀態(tài),兩個(gè)冷卻器處于備用狀態(tài)(N+2)”。電源下陷(電壓驟降)導致五個(gè)運行中的冷卻器出現故障。
微軟聲稱(chēng),“園區因人員配備不足從而導致了這次事故,在‘更好地了解根本問(wèn)題并采取適當的緩解措施’之前,工作人員安排數量目前從 3 人臨時(shí)增至 7 人?!?,微軟還將調整相關(guān)應急預案和日常工作流程,降低此類(lèi)事件再次發(fā)生的可能性。
▲ 圖源 微軟針對事件發(fā)布的報告(PIR)
據悉,這次事故影響了使用 Azure 的七家大型企業(yè)客戶(hù),其中五家為“標準”級別,兩家為“高級”級別,微軟表示,裝載有企業(yè)客戶(hù)存儲內容的硬件“因數據大廳溫度過(guò)高而損壞”,除了企業(yè)客戶(hù)重大損失外,該數據中心旗下托管的 25 萬(wàn)多個(gè) SQL 數據庫也發(fā)生了故障,根據微軟 PIR 報告,當下相關(guān)數據恢復工作已經(jīng)大致完成。
▲ 圖源 微軟針對事件發(fā)布的報告(PIR)
評論