Google云服務(wù)故障:只因同時(shí)做了兩項升級
本月11日13時(shí)13分到15時(shí),Google位于美國數據中心的App Engine服務(wù)出現大面積故障。其中3%的應用出錯概率超過(guò)50%,18%的應用訪(fǎng)問(wèn)出錯概率在10%到50%之間,14%的應用出錯概率在1%到10%之間,有2%的應用出錯率在1%以下但依然高于正常水平。剩余63%的應用訪(fǎng)問(wèn)正常。
本文引用地址:http://dyxdggzs.com/article/201608/296024.htm近日Google在其云服務(wù)官方日志中公開(kāi)了故障原因,原來(lái)只因為工程師們在例行維護時(shí)同時(shí)做了兩件事。
出于負載均衡的考慮,Googe的工程師配置了新的數據中心,把老數據中心一定比例的App遷移到了新的數據中心,然后把流量從之前的服務(wù)器導向新的數據中心。
至此相安無(wú)事,但不湊巧的是,數據中心的多臺路由器正在軟件升級,需要滾動(dòng)式重啟,網(wǎng)絡(luò )流量處理能力不如平常。
同時(shí),新遷移的許多應用由于啟動(dòng)緩慢,導致舊服務(wù)器大量重復向新服務(wù)器發(fā)送啟動(dòng)應用的請求,進(jìn)一步加重路由器負載,最終造成偶然丟失外部用戶(hù)的訪(fǎng)問(wèn)。
對此意外,Google方面表示將會(huì )加大對硬件的投入,修正導入流量的方式,并修改針對新服務(wù)器的重試請求。
評論