UPS電源的實(shí)時(shí)監控系統簡(jiǎn)析
衡量UPS系統安全性能的指標中,有兩個(gè)指標尤其重要:一個(gè)是系統的可靠性,另一個(gè)則是可用性。作為提高電源系統質(zhì)量的主要設備,UPS系統本身的可靠性、可用性,是衡量UPS系統性能最重要、最根本的指標。這里對影響UPS可用性的因素進(jìn)行詳盡的剖析,從而得出通過(guò)采用先迸UPS智能管理技術(shù)來(lái)提高系統可用性的有效方法。新的UPS管理技術(shù)及產(chǎn)品,對提高UPS系統的可用性具有重要的意義。
本文引用地址:http://dyxdggzs.com/article/201612/327844.htm從系統可用性的定義可以看出,提高UPS系統可用性有兩個(gè)途徑:一是提高系統可靠性,即延長(cháng)平均無(wú)故障時(shí)間MTBF,另一途徑則是降低平均故障修復時(shí)間 MTTR。從UPS系統平均故障修復時(shí)間MTTR與UPS系統可用性的關(guān)系可以看出,縮短平均故障修復時(shí)間MTTR對提高系統可用性具有更明顯的作用。
這里通過(guò)一個(gè)具體的案例詳細分析平均故障修復時(shí)間MTTR的構成。所分析的案例是一臺80kVA的UPS系統。如果這樣的UPS系統發(fā)生故障,通常是需要廠(chǎng)商專(zhuān)業(yè)技術(shù)人員才能進(jìn)行維修的。對于這樣一個(gè)系統,眾多廠(chǎng)商紛紛提出了“4小時(shí)響應”、“24小時(shí)修復”等服務(wù)承諾。但值得注意的是,這些時(shí)間并非真正的故障恢復時(shí)間。首先,所謂的“4小時(shí)響應”,通常僅僅是指廠(chǎng)商方面的工程師在得到用戶(hù)的通知到做出上門(mén)維修計劃的時(shí)間,離真正故障修復還有相當的距離,而“24小時(shí)修復”則會(huì )有很多的附加條件,如發(fā)生故障的設備所在地有無(wú)工程師、備件等條件。其實(shí),真正的故障修復時(shí)間與整個(gè)故障修復過(guò)程的每個(gè)環(huán)節都有緊密的聯(lián)系。
下面就上述UPS系統故障案例的修復時(shí)間進(jìn)一步地按實(shí)際分段加以詳細分析時(shí)發(fā)現,一次故障修復時(shí)間由以下時(shí)間段構成:
故障報警通知時(shí)間。從故障發(fā)生到用戶(hù)發(fā)現故障的時(shí)間,用T1表示。
廠(chǎng)商反應時(shí)間。用戶(hù)將故障信息反饋給廠(chǎng)商的售后服務(wù)部門(mén),到廠(chǎng)商售后服務(wù)工程師與用戶(hù)溝通,做出上門(mén)維修計劃的時(shí)間,用T2表示。
故障初步判斷時(shí)間。廠(chǎng)商售后服務(wù)工程師通過(guò)電話(huà)等方式與用戶(hù)溝通,了解故障現象和故障過(guò)程,對故障做出基本判斷的時(shí)間,用T3表示。
上門(mén)服務(wù)時(shí)間。從廠(chǎng)商售后服務(wù)工程師通過(guò)電話(huà)等方式與用戶(hù)溝通對故障做出基本判斷后到上門(mén)服務(wù)的時(shí)間,用T4表示。
故障排除時(shí)間。從廠(chǎng)商售后服務(wù)工程師上門(mén)服務(wù),到故障排除的時(shí)間,用T5表示。
1.首先來(lái)分析第一段時(shí)間——故障報警通知時(shí)間T1
看起來(lái)這段時(shí)間應該是很短,但是實(shí)際上它存在極大的不確定性。首先,由于中、大容量的UPS一般安裝放置在專(zhuān)用的電源機房,由于噪音、安全等原因,電源機房平時(shí)一般無(wú)人值守。因此,如果UPS發(fā)生故障往往要等到故障產(chǎn)生嚴重后果后才會(huì )被用戶(hù)發(fā)現,同時(shí),由于UPS系統作為強電設備,需要具有專(zhuān)業(yè)知識、經(jīng)過(guò)專(zhuān)門(mén)培訓的人員才能進(jìn)行日常的維護操作,所以在出現故障后也需要專(zhuān)業(yè)人員到現場(chǎng)進(jìn)行評估、判斷,然后才能進(jìn)行相應的操作,這一因素也制約了故障通知的速度。正是由于上述原因,加上空間距離及專(zhuān)業(yè)知識方面的不確定因素,UPS的故障通知時(shí)間T1也就變得具有很大的不確定性,使它可能成為降低系統可用性的一個(gè)重要因素?! ∮羞@樣一個(gè)具體的實(shí)際案例。天津某銀行數據中心,使用了1臺125kVA的UPS為數據中心供電,UPS系統安裝在數據中心地下2層,平時(shí)無(wú)人值守。一天上午10點(diǎn),UPS系統突然出現10s的短暫停電,導致整個(gè)數據中心癱瘓。經(jīng)工程師現場(chǎng)檢查發(fā)現,UPS其實(shí)并無(wú)任何硬件故障,只是在故障發(fā)生時(shí)運行在旁路狀態(tài),經(jīng)查閱UPS運行歷史記錄發(fā)現,當時(shí)市電正好發(fā)生10s的短暫故障停電,由于UPS運行在旁路狀態(tài),相當于市電向負載直接供電,所以市電停電直接影響到負載。但進(jìn)一步檢查發(fā)現,UPS實(shí)際上在兩天以前就已經(jīng)處于旁路狀態(tài),其原因是大容量負載啟動(dòng)導致的過(guò)載并鎖定在旁路狀態(tài)(UPS設置運行模式),盡管當時(shí)UPS已經(jīng)發(fā)出了聲音報警信號,由于空間距離的原因,工作人員并末聽(tīng)到報警聲訊,所以直到發(fā)生嚴重的后果以后才發(fā)覺(jué)。從這個(gè)案例可以看到,通常認為并不重要的故障通知時(shí)間T1竟然長(cháng)達兩天。由于乃存在較大的不確定性,實(shí)際上對MTTR具有很大的影響,它可能是導致UPS系統可用性降低的重要原因。
2、再來(lái)看看第二段時(shí)間——廠(chǎng)商的反應時(shí)間T2
由于中、大容量UPS的維修需要專(zhuān)業(yè)的知識及技能,通常需要由廠(chǎng)商技術(shù)人員完成,這段時(shí)間的長(cháng)短反映了廠(chǎng)商對售后服務(wù)的重視程度及能力。不同的廠(chǎng)商分別為不同的產(chǎn)品提供5×8(每周5天,每天8h的法定工作時(shí)間內)、7×24(每周7天,每天24h全天候)的售后服務(wù)響應。
3、再看看第三段時(shí)間——故障初步判斷時(shí)間T3
為了加快故障修復速度,廠(chǎng)商售后服務(wù)工程師在提供上門(mén)維修服務(wù)之前,通常需要通過(guò)電話(huà)等通信手段與用戶(hù)進(jìn)行溝通,了解故障現象,通過(guò)用戶(hù)得到UPS系統的故障狀態(tài)和相關(guān)信息。這一工作非常重要,故障初步判斷對準備接下來(lái)的故障現場(chǎng)修復起著(zhù)指導作用。這段時(shí)間的長(cháng)短與很多因素有關(guān),這些因素包括:用戶(hù)維護水平和故障前系統的運行狀況、售后服務(wù)工程師的技術(shù)能力和溝通能力、產(chǎn)品智能管理和使用的方便程度、是否人性化等。譬如,用戶(hù)對UPS系統越了解,用戶(hù)運行維護人員的技術(shù)水平越高,故障初步判斷時(shí)間就越短。除了用戶(hù)、售后服務(wù)工程師的技術(shù)能力對T3具有很大的影響外,溝通能力等非技術(shù)因素往往成為決定T3長(cháng)短的重要因素,用戶(hù)與售后服務(wù)工程師的方言、語(yǔ)言表達習慣甚至性格等非客觀(guān)因素的差異和售后服務(wù)工程師的溝通技巧等,都會(huì )對溝通的有效性產(chǎn)生直接的影響,從而影響T3的長(cháng)短。
4、再看看第四段時(shí)間——上門(mén)服務(wù)時(shí)間T4
廠(chǎng)商工程師上門(mén)服務(wù)時(shí)間受到空間距離、天氣情況、交通狀況等條件的影響,但是相對容易控制,在進(jìn)行MTTR分析時(shí),可以作為相對穩定的參數處理。
5、最后,再看看第五段時(shí)間——故障排除時(shí)間T5
這段時(shí)間除了與售后服務(wù)工程師的技術(shù)水平有關(guān)外,還直接受到第三步故障初步判斷結果的影響。由于故障初步判斷的失誤,可能導致帶到現場(chǎng)的備件不能滿(mǎn)足維修的需要,從而使故障不能很快得到修復。另外,UPS系統的結構設計也會(huì )對故障排除時(shí)間幾有很大程度的影響。例如,有些廠(chǎng)商的UPS采用模塊化設計,其故障部件的更換時(shí)間大為縮短,也有些廠(chǎng)商是采用所謂“N+1”的模塊化加冗余配置技術(shù),這就更加大大縮短故障的修復時(shí)間T5。
綜上所述,在影響故障修復時(shí)間的各個(gè)階段中,除了廠(chǎng)商的服務(wù)標準和工程師的技術(shù)水平對故障修復時(shí)間具有重要的影響外,故障報警通知、故障初步判斷等環(huán)節,由于其容易受到眾多非確定因素的影響,具有很大的不確定性,同時(shí)又不為大家所重視,所以往往成為延長(cháng)故障修復時(shí)間MTTR的主要原因?! 榱擞行Эs短T1(故障報警通知時(shí)間)、T3,(故障初步判斷時(shí)間)和T5(故障排除時(shí)間),首先,UPS系統必須有故障遠程報警的功能,UPS系統能在故障發(fā)生時(shí),通過(guò)各種有效的遠程報警手段,向不在現場(chǎng)的系統運行維護人員及時(shí)報告故障信息,其次,售后服務(wù)工程師能通過(guò)直接、客觀(guān)的手段了解故障情況,從而得到有關(guān)故障的正確、完整的信息,避免由于人為因素造成的信息失真、缺漏。
要想使UPS系統具備遠程報警、遠程測試、故障遠程診斷和遠程修復等新的功能,這就要借助電源管理的新技術(shù)(包括一系列的附件、軟件產(chǎn)品)才能實(shí)現。以下進(jìn)一步介紹采用這些電源管理技術(shù)后的故障修復過(guò)程,從中不難看出,電源管理技術(shù)對UPS系統的可用性正在產(chǎn)生深遠的影響。
給UPS系統裝備上新的遠程報警管理卡,系統管理員可以對這種遠程報警卡進(jìn)行設置。系統管理員設置好了以后,遠程報警管理卡便能夠根據系統管理員的設置定期對UPS自動(dòng)進(jìn)行檢測。當遠程報警管理卡檢測到系統的潛在問(wèn)題或者故障發(fā)生時(shí),會(huì )立即自動(dòng)通過(guò)電話(huà)、尋呼、網(wǎng)絡(luò )郵件、手機短信等方式向運行維護人員發(fā)出報警通知,避免故障的發(fā)生或者及時(shí)將故障警報通知廠(chǎng)商售后服務(wù)部門(mén),從而將報警時(shí)間T1縮短到“分鐘級”。UPS系統維護人員在得到報警通知后,立即通知廠(chǎng)商售后服務(wù)人員,廠(chǎng)商售后服務(wù)工程師能通過(guò)電話(huà)網(wǎng)絡(luò )、Internet,直接對故障UPS進(jìn)行訪(fǎng)問(wèn)、遠程檢測和遠程故障診斷,以及下載UPS運行參數、運行歷史記錄等,這一切都由售后服務(wù)工程師直接進(jìn)行,無(wú)需用戶(hù)的參與,避免了人為因素的干擾,使得對故障的初步判斷更為準確,這可大大縮短故障初步判斷時(shí)間T3,也為縮短故障排除時(shí)間T5奠定基礎。在判斷清楚故障情況后,售后服務(wù)工程師就可以根據情況進(jìn)行處理,如果故障僅僅是由于系統的某些參數設置不當,則只需要對UPS系統相應的參數進(jìn)行遠程調整就可以完成故障排除,如果需要上門(mén)排除故障時(shí),工程師就可以直接攜帶備件進(jìn)行上門(mén)維修。由于故障初步判斷相對準確,故障排除時(shí)間T5也相應縮短。整個(gè)平均故障恢復時(shí)間MT
評論