數據中心供電系統故障誘因分析
那我們如何有效保障數據中心的電源動(dòng)力呢?我們需要一個(gè)能可以保障計算機系統在停電之后繼續工作一段時(shí)間以使用戶(hù)能夠緊急存盤(pán),使您不致因停電而影響工作或丟失數據,為計算機系統提供高質(zhì)量的電源。他就是我們常說(shuō)的UPS系統。
UPS—不間斷電源系統,是一種含有儲能裝置、以逆變器為主要元件、穩壓穩頻輸出的電源保護設備。在計算機和網(wǎng)絡(luò )系統應用中,主要起兩個(gè)作用:一是應急使用,防止電網(wǎng)突然斷電而影響正常工作,給計算機系統造成損害;二是消除市電網(wǎng)上的電涌、瞬間高電壓、瞬間低電壓、暫態(tài)過(guò)電壓、電線(xiàn)噪聲和頻率偏移等“電源污染”,改善電源質(zhì)量,為計算機系統提供高質(zhì)量的電源。在實(shí)際的應用中,各種原因引起的UP故障給用戶(hù)帶來(lái)了意想不到的經(jīng)濟損失。因此,如何建立一個(gè)合理的、安全的UPS供電系統成為大家關(guān)注的問(wèn)題。本文將從UPS供電系統故障的誘因進(jìn)行探討。
一、數據中心供電故障原因1:UPS選型不當導致的故障
有的用戶(hù)認為UPS都一樣,所以就追求低價(jià)格,結果導致故障。比如某高速公路指揮部貪圖便宜,第一天裝機,第二天就起火;某人壽保險公司低價(jià)格購進(jìn)的機器,不到半年因UPS故障而燒毀幾乎所有IT設備的輸入電路,導致系統癱瘓;又如某多臺UPS并聯(lián)的兆瓦級數據中心,裝機沒(méi)有幾個(gè)月因其中一臺UPS中的一個(gè)逆變器功率管擊穿而導致所有UPS跳閘…
二、數據中心供電故障2:使用環(huán)境不當故障導致的故障
不按說(shuō)明書(shū)上對環(huán)境的要求放置機器,甚至有的將UPS放在隨便穿行的走廊、滴水的地下室。比如幾臺200kVA的UPS放在了屋頂只有一層預制板的平房,空調只是兩臺5P的舒適空調機,又如一個(gè)玻璃廠(chǎng)竟將UPS放在粉末飛揚的廠(chǎng)房?jì)?,等等。導致了頻繁故障。
三、數據中心供電故障3:制度不健全導致的故障
比如有的值班人員隨便將電爐子、電飯煲和吸塵器接在UPS上,導致過(guò)載跳閘;有的值班人員的食物引來(lái)老鼠鉆入機器而導致起火。
四、數據中心供電故障4:交接故障
這類(lèi)故障主要是由于管理人員的前后不是一撥人或配合不好造成。比如某火車(chē)站售票系統,前面值機人員由于移動(dòng)機器位置而將UPS的外接電池組斷開(kāi),事后又未向后來(lái)者交代,結果造成了市電和UPS同時(shí)停電的故障…
五、數據中心供電故障5:經(jīng)驗故障
經(jīng)驗是不可缺少的,是不可多得的財富。但經(jīng)驗有其相對性,即在某種UPS上得到的經(jīng)驗不一定完全適合另一種UPS,否則就會(huì )導致故障。某電信局由于不看說(shuō)明書(shū)而用同樣的方法啟動(dòng)另一品牌機器導致逆變器燒毀。
六、數據中心供電故障6:失察故障
一些器件在運行中會(huì )出現老化或早期失效,如不及時(shí)檢查發(fā)現就會(huì )導致故障。這些在自動(dòng)監控中是無(wú)法發(fā)現的。比如因老化而開(kāi)始彎曲的保險絲,電池結構螺絲的松動(dòng),電池長(cháng)時(shí)間放點(diǎn)后使電池殼有微細的裂縫等,如不及時(shí)發(fā)現或發(fā)現后沒(méi)有及時(shí)處理都可造成故障。
七、數據中心供電故障7:倉促上陣導致的故障
搞維修保養來(lái)不得半點(diǎn)急躁,要考慮周全后再動(dòng)手。某公司工程師要對一用戶(hù)正在運行的UPS進(jìn)行檢修,按照規定要用維修旁路開(kāi)關(guān)將UPS退出后再檢修,但按照程序需先啟動(dòng)自動(dòng)旁路,而后再合維修旁路的閘刀。也許該工程是還有其他急事要辦,進(jìn)機房后未經(jīng)考慮就閉合了維修旁路閘刀,結果造成逆變器功率管爆炸。
八、數據中心供電故障8:維護不當導致的二次故障
對UPS的定期維護是必要的,但應有一套嚴格的管理程序。那些不負責任、不按規定要進(jìn)行定期或不定期保養是導致機器故障的重要原因。另外,在維護保養時(shí)也可導致故障,比如用萬(wàn)用表探針測量電路板電位時(shí),探針將兩點(diǎn)短路導致故障。一用戶(hù)作電池放電時(shí),將電池從UPS上摘下,放電后將電池接回時(shí)機型解放,導致電流爆炸。又如一工程師在更換離心風(fēng)機時(shí)不小心活動(dòng)扳手一打滑打在了控制板上,當時(shí)沒(méi)有在意,風(fēng)機換好后不能開(kāi)機,檢查發(fā)現一條器件退被打斷了…
九、數據中心供電故障9:靜電導致的故障
某機房按例停機保養,但保養后卻無(wú)法開(kāi)機。檢查后發(fā)現一個(gè)組件電壓擊穿,回憶為保過(guò)程發(fā)現該控制板用塑料牙刷掃過(guò)灰塵。塑料在干燥器件的表面可產(chǎn)生幾千伏的摩擦靜電電壓,由于機器內小信號電路使用了一些MOS器件,這些器件耐壓很低而且最怕靜電。經(jīng)測量一個(gè)普通塑料袋,用電路板摩擦以下就可產(chǎn)生3000V的靜電電壓。所以在檢查這些電路板時(shí)最好手腕上要討一個(gè)接地環(huán)。
十、數據中心供電故障10:過(guò)分自信導致的故障
做事情自信是成功的基礎,但過(guò)分自信有時(shí)就會(huì )出錯。比如某國際銀行在UPS運行了8年后就應該更新設備,廠(chǎng)家也多次提醒。由于該UPS8年來(lái)很少出問(wèn)題,所以用戶(hù)負責人屢次回答“不用更新”,結構幾個(gè)月后該UPS因老化故障而停止供電兩小時(shí),導致全球業(yè)務(wù)也斷兩小時(shí),損失很大。根據國際上的統計資料,5年標稱(chēng)的電池服務(wù)壽命最多不超過(guò)3年。在平時(shí)不保養的情況下,一般2年就應該更換。某飛機場(chǎng)候機廳電池原配4h,3年后人不更換,一次外電網(wǎng)停電,UPS后備時(shí)間只剩4h,由于停電造成了損失。像類(lèi)似的人為故障現象還有很多,就不一一例舉了。
歸根到底,電源系統的選型是第一關(guān),這一道關(guān)把不住首先就種下了隱患的種子。電源系統的連接是第二關(guān),有了好的設備,如果沒(méi)有好的連接方案,也會(huì )埋下隱患。某電視臺由于連接方案被廠(chǎng)家誤導。十幾套節目的供電UPS故障接連不斷,而且大都是有驚無(wú)險,一連幾年都是這樣,使維保人員提心吊膽、傷透了腦筋。連接方案是一個(gè)工程,不是維保人員左右的了的。無(wú)奈只好在重大活動(dòng)和節日令廠(chǎng)家工程師前來(lái)值班。這又有什么用呢!廠(chǎng)家的工程師到此也只能是給用戶(hù)心理上以安慰。該告警的時(shí)候照樣告警,只求上帝保佑不要停電!
所以UPS的選購就相當重要了!關(guān)于UPS的選購我們總結了以下幾點(diǎn),希望對大家有所幫助。
(1)確認所需UPS的類(lèi)型對于金融、證券、電信、交通等重要行業(yè),應選擇性能優(yōu)異、安全性高的在線(xiàn)式UPS;對于網(wǎng)絡(luò )用戶(hù),除考慮選擇在線(xiàn)式UPS外,還可選擇在線(xiàn)互動(dòng)式UPS;對于家庭用戶(hù),可選擇后備式UPS。
(2)確定所需UPS的功率計算UPS功率的方法是:UPS功率=實(shí)際設備功率×安全系數。其中,安全系數是指大設備的啟動(dòng)功率,一般選1.5。
(3)考慮發(fā)展余量除考慮實(shí)際負載以外,還要考慮今后設備的增加所帶來(lái)的增容問(wèn)題,因此UPS的功率應在現有負載的基礎上再增加15%的余量。
(4)選擇品牌和售后服務(wù)最好選擇保修期長(cháng),售后服務(wù)及時(shí)周到的UPS。這樣,產(chǎn)品供應商可以方便地對其產(chǎn)品及時(shí)進(jìn)行維護和維修,從而保證用戶(hù)的正常使用。
UPS高端用戶(hù)選擇的大都是進(jìn)口品牌的UPS電源產(chǎn)品,國外的很多產(chǎn)品在技術(shù)上五花八門(mén),大都是成熟產(chǎn)品,國內的很多用戶(hù)也都選擇有很好運行業(yè)績(jì)的產(chǎn)品,但畢竟是國外的產(chǎn)品,在技術(shù)支持和服務(wù)上想必許多客戶(hù)都有不愉快的經(jīng)歷,尤其是在中方技術(shù)人員無(wú)法處理的時(shí)候,往往給終端用戶(hù)造成損失。當然許多事情可以防范于未然,提前做好一定的準備可以把損失減少?!?/P>
評論