通信電源、機房環(huán)境集中監控系統優(yōu)化和升級(圖)
——
課題的發(fā)現與討論
- 課題的提出
電源、機房環(huán)境集中監控系統的出現,將原來(lái)相對分散的各個(gè)機房的電源、空調設備的運行狀態(tài)和環(huán)境數據進(jìn)行了集中,方便了監控。然而隨著(zhù)我國通信事業(yè)的發(fā)展,通信布局從原來(lái)的大型母局式轉變到接入設備更靠近用戶(hù)的模塊局方式,模塊局的數量逐年遞增,監控中心通信服務(wù)器及數據庫服務(wù)器的負載能力基本上已經(jīng)達到了滿(mǎn)負荷。另外,隨著(zhù)電源技術(shù)的發(fā)展,智能化的設備也要求接入到系統中,這就帶來(lái)了系統響應緩慢,查詢(xún)歷史數據時(shí)間太長(cháng)以及頻繁告警等問(wèn)題。因而,對電源、機房環(huán)境集中監控系統進(jìn)行系統優(yōu)化和升級勢在必行。
- 現有系統分析
通信電源、機房環(huán)境集中監控系統主要存在以下問(wèn)題:
首先,系統運行以數據庫為核心,要求中心數據庫實(shí)時(shí)更新,這就造成了對中心數據庫的訪(fǎng)問(wèn)過(guò)于頻繁,壓力過(guò)大。
其次,數據庫服務(wù)器是下端前置設備和上端管理節點(diǎn)的連接通道,如果它出現問(wèn)題,會(huì )引起系統的癱瘓。
最后,現有的通信服務(wù)器數量雖多,但它們之間不能進(jìn)行靈活的切換。這樣造成了兩方面問(wèn)題,一是系統的中心通信服務(wù)器主備用功能不強;二是可能出現中心通信服務(wù)器的負載不均衡現象,當大多數端局都連在一個(gè)通信服務(wù)器上時(shí),就會(huì )出現問(wèn)題。
系統優(yōu)化和升級的具體操作
- 改造系統結構
目前的集中監控系統(以下簡(jiǎn)稱(chēng):監控系統)多采用兩級結構,數據監控量越來(lái)越大。
圖1 目前監控系統結構圖
因此,我們采用三層結構(見(jiàn)圖2),即市中心(sc)層、區域中心(ss)層和監控單元(su)層,各層的軟件通過(guò)數據交換協(xié)同工作,共同實(shí)現電源、機房環(huán)境集中監控的要求。區域中心(ss)設在集中監控中心(sc)下,它所監控的范圍是所在工作區域系統內的動(dòng)力設備及環(huán)境。在此層,設置主備兩臺服務(wù)器,提高系統可靠性和穩定性,并能任意增加區域監控終端和統計管理終端。同時(shí),它還負責處理各通信局(站)監控單元(su)采集來(lái)的數據,并將處理過(guò)的數據上傳到監控中心,以緩解監控中心的壓力,提高了系統查詢(xún)、下發(fā)數據的運行速度。
圖2 改造后的結構圖
這種結構的優(yōu)點(diǎn)是:
- 組網(wǎng)方便、靈活,大大減輕了中心的負荷壓力,解決了系統瓶頸問(wèn)題。
- 物理區域分布,使一個(gè)區域節點(diǎn)故障不會(huì )影響其他區域節點(diǎn),提高了系統的可用性和可靠性。
- 系統接入能力強,理論上可以無(wú)限接入,并可組成多級結構,可在監控網(wǎng)內任意地點(diǎn)安裝監控終端。
- 組網(wǎng)方便、靈活,大大減輕了中心的負荷壓力,解決了系統瓶頸問(wèn)題。
- 優(yōu)化數據庫,修改表結構
數據庫開(kāi)銷(xiāo)中的90%以上都是重復信息。系統升級后,對這些信息進(jìn)行了過(guò)濾,減輕了系統的負荷。
另外,由于監控規模不斷擴大,形成了數量龐大的數據庫表,不易于管理。針對這個(gè)問(wèn)題,我們采用了更先進(jìn)的數據庫結構。具體操作是:取消端局分表結構,將端局表合并為一個(gè)表,包括主機表、機房表、設備表、設備狀態(tài)表等。修改后的數據庫表增加了表的檢索能力和檢索速度。
- 修改告警數據傳輸方式
目前監控系統告警查詢(xún)采取查告警表的方式,導致告警表的任務(wù)異常繁忙,嚴重時(shí)會(huì )影響監控系統正常運行。
升級后,通過(guò)軟件與監控模塊建立的通信協(xié)議機制,不斷的輪詢(xún),判斷接收數據的合理性或將接到的控制數據轉換為監控模塊能識別的控制命令。通信服務(wù)器到監控中心主機的告警采用通知方式,告警反應時(shí)間比原來(lái)更快。具體操作是:
監控工作站增加服務(wù)端口(3388),負責接收告警、門(mén)禁及操作記錄等信息。告警信息由通信服務(wù)程序直接傳送到監控工作站,不再通過(guò)報警表傳遞。
通信服務(wù)器程序服務(wù)端口(8300)增加功能,提供告警、門(mén)禁及操作記錄等信息。監控工作站的更具情況可直接向通信服務(wù)程序查詢(xún)。
- 歷史數據傳輸
目前的歷史數據傳輸時(shí)間太過(guò)集中,造成整點(diǎn)時(shí)刻網(wǎng)絡(luò )及數據庫繁忙,并存在歷史數據丟失現象。
升級后,每個(gè)局的歷史數據在不同時(shí)刻傳輸,傳送時(shí)刻由系統采用隨機數方法產(chǎn)生。此外,在監控前置機中給每一個(gè)歷史數據塊增加上傳標志,標明該歷史數據塊是否已經(jīng)成功上傳;如上傳失敗,則繼續將歷史數據上傳到通信服務(wù)器。
同樣,電池曲線(xiàn)也增加上傳標志,以保證電池曲線(xiàn)在上傳失敗后能繼續上傳到通信服務(wù)器。
- 配置表同步
現運行的監控系統各個(gè)監控部分之間缺乏配置同步機制,維持系統配置一致比較麻煩。
針對這一問(wèn)題,我們建立了配置表同步機制。配置同步的邏輯采用自頂向下的方式,首先由監控工作站或管理工作站開(kāi)始,先將配置更改信息寫(xiě)入數據庫操作記錄表,然后由通信服務(wù)器讀入配置更改信息,再由通信服務(wù)器將此信息發(fā)送給監控前置機。監控工作站采取查操作記錄表方式更新本機配置。
自動(dòng)配置更新可按如下層次更新,包括:端局層、機房層、監控器層、設備層、變量層。
- 遠程控制
本系統采用tcp/ip作為基本的通信協(xié)議,但現有遠程控制都通過(guò)通信服務(wù)器和數據庫中轉,過(guò)于依賴(lài)中心服務(wù)器,導致系統出現以下問(wèn)題:
1、控制信息回饋不及時(shí),不能準確提示控制成敗標志。
2、延長(cháng)了控制操作的時(shí)間,存在控制不及時(shí)的隱患。
3、數據庫或通信服務(wù)器出現問(wèn)題時(shí),不能執行遠程控制操作。
升級后,改變遠程控制邏輯,由監控工作站直接控制監控前置機。這樣帶來(lái)了以下好處:
1、控制操作執行速度快,不存在延時(shí)問(wèn)題。
2、信息回饋準確及時(shí)。
3、在通信服務(wù)器或數據庫出現問(wèn)題時(shí),不影響遠程控制操作。
- 系統時(shí)間
監控前置機對時(shí)系統存在問(wèn)題,有時(shí)會(huì )出現錯誤時(shí)間。針對這一問(wèn)題,我們修改了系統對時(shí)邏輯。當連續對時(shí)三次以上,不出現較大間隔時(shí)間誤差時(shí),視為正確時(shí)間,否則視為錯誤時(shí)間。最大誤差間隔時(shí)間可調,一般設為對時(shí)周期的2~5倍。
- 告警過(guò)濾
產(chǎn)生誤告警的幾種主要原因見(jiàn)表1。
表1 產(chǎn)生誤告警原因列表
系統某些誤告警不能屏蔽,會(huì )產(chǎn)生頻繁告警。通過(guò)以下操作,可減少系統誤告警數量。
告警次數過(guò)濾:以超過(guò)告警線(xiàn)的次數來(lái)判斷是否產(chǎn)生告警/解除,當連續n次以上超過(guò)告警線(xiàn)才產(chǎn)生告警/解除,否則視為誤告警處理。次數n可以設定為0~10;次數設為0時(shí),視為告警次數過(guò)濾無(wú)效。
告警延時(shí)過(guò)濾:以超過(guò)告警線(xiàn)的時(shí)間來(lái)判斷是否產(chǎn)生告警/解除,超過(guò)最大告警延時(shí)時(shí)間才產(chǎn)生告警/解除,否則視為誤告警處理。延時(shí)時(shí)間有效數據為0.5~60秒,超出此范圍視為告警延時(shí)無(wú)效;當不使用告警延時(shí)功能時(shí),應設為0。
告警死區過(guò)濾:當監控量超過(guò)告警線(xiàn)產(chǎn)生告警后,如果監控量在告警線(xiàn)上下波動(dòng),沒(méi)有超過(guò)死區上下線(xiàn),不產(chǎn)生重復告警及告警解除。告警死區設為0時(shí),視為告警死區過(guò)濾無(wú)效。告警死區值根據具體情況指定,一般設為量程的2%左右。
同時(shí),系統只將對用戶(hù)有用的報警和事件記錄放入信息欄。
- 復位控制
針對目前監控前置機在系統通信中斷時(shí)復位頻繁,造成硬盤(pán)等故障發(fā)生率提高的問(wèn)題,我們在監控前置機增加系統通信斷復位次數限制,避免系統頻繁重啟。次數可指定,默認為3。
- 智能化設備的接入
升級后的監控系統可實(shí)現對任意智能設備的接入,但相對于通信接口間的硬件轉換,通信協(xié)議的轉換相對要復雜一些。其實(shí)現方式一是局方智能設備智能接口直接連接到監控系統嵌入式監控設備上,由其將轉換過(guò)的標準協(xié)議傳送到上位機;二是直接將局方智能設備智能接口接到上位機上,通過(guò)軟件實(shí)現協(xié)議轉換。無(wú)論是嵌入式監控設備還是上位機,都可以根據智能設備及智能協(xié)議不同插入不同的協(xié)議模塊。
監控系統使用的軟件協(xié)議轉化器是在局站中心的計算機中運行的,只占有很少的資源。它是一個(gè)小的轉換程序,在編寫(xiě)時(shí)就能根據智能設備廠(chǎng)家提供的通信協(xié)議,將廠(chǎng)家提供的所有設備數據接入到監控系統,可以方便我們詳細全面地了解智能設備的運行狀況。
但是,監控系統不建議使用硬件協(xié)議轉換器,因為這樣增加了成本,并且在通信鏈路上增加了一個(gè)環(huán)節,影響了系統的安全性。此外,由于這種硬件協(xié)議轉換器是各個(gè)監控廠(chǎng)家自己生產(chǎn)的,當局端有新增設備時(shí),會(huì )產(chǎn)生一系列問(wèn)題。
- 增加圖像監控
國家相關(guān)部門(mén)已下達機房改造的規定,一些大型的機房已慢慢成為無(wú)人職守型。為了保證上述機房的安全運行要求,升級后的系統增加了圖像監控功能,能夠隨時(shí)觀(guān)察到機房的運行情況,并能得到相關(guān)的錄像資料。升級后的系統狀況如下。
系統結構:采用三級系統結構,包括遠程現場(chǎng)、監控區域和監控中心三級。
傳輸方式:pcm-2m通信線(xiàn)路連接或采用e1抽時(shí)隙復用數據方式。
監控現場(chǎng):每個(gè)現場(chǎng)可接若干臺攝像機,攝像機的鏡頭和云臺可控。
告警聯(lián)動(dòng):可以任意監視各個(gè)現場(chǎng),并接收各現場(chǎng)的報警信息,及時(shí)切換至告警現場(chǎng),并可將現場(chǎng)情況錄像。
- 改進(jìn)圖形界面
改進(jìn)后的監控系統圖形監控界面具有組態(tài)功能,并提供了多種圖形控件,包括所需的組件和畫(huà)面制作向導等。界面中每一簡(jiǎn)單的控件(線(xiàn)條、文本、按鈕等)均有影響其外觀(guān)的屬性。其中靜態(tài)屬性在系統投入運行后保持不變;動(dòng)態(tài)屬性則隨系統運行過(guò)程中i/o設備數據的變化而變化。動(dòng)態(tài)屬性的組態(tài)過(guò)程即完成動(dòng)畫(huà)連接,如果用戶(hù)對自動(dòng)生成的監控系統的圖形界面不滿(mǎn)意,還可以進(jìn)行任意修改和編輯。在圖形界面上還根據用戶(hù)需要安置這些組件,如報警信息顯示,報表組態(tài)及打印,查詢(xún)和顯示等組件模塊。
- 無(wú)線(xiàn)的人機界面
針對當前移動(dòng)領(lǐng)域的發(fā)展及應用情況,監控系統具備了手機短信息模塊,可將各類(lèi)型的報警信息即時(shí)傳送到相關(guān)維護人員,并可進(jìn)行簡(jiǎn)單的交互控制。
- 增加基于b/s結構的遠程web實(shí)時(shí)監控
b/s結構,即browser/server(瀏覽器/服務(wù)器)結構,在傳統的c/s結構中間加上一層web服務(wù)層,把原來(lái)客戶(hù)機所的功能交給web服務(wù)層來(lái)實(shí)現。它有三層結構:表示層(用戶(hù)界面),功能層(web服務(wù)器)和數據層(數據庫服務(wù)器)。與c/s結構相比,b/s結構有以下優(yōu)點(diǎn):
(1) 用戶(hù)端只需安裝單一的瀏覽器軟件(如ie),界面統一,使用簡(jiǎn)單。
(2) 由于客戶(hù)端無(wú)須安裝專(zhuān)用軟件,系統升級時(shí)只需更新web服務(wù)端的軟件,使系統易于維護。
(3) 采用標準的tcp/ip協(xié)議,http協(xié)議,有良好的廣域網(wǎng)支持,擴展性好,易于實(shí)現多用戶(hù)監控,信息共享程度高。
采用b/s結構開(kāi)發(fā)的實(shí)時(shí)遠程web監控系統提供了完整清晰的動(dòng)態(tài)監控過(guò)程。頁(yè)面以秒為單位自動(dòng)刷新。刷新時(shí),整個(gè)文件重新執行一次到數據庫的連接、查詢(xún)和顯示,能將數據的變化及時(shí)反映給用戶(hù)。通過(guò)屏幕流程圖數據和數據表格的配合使用,完成了對設備從整體到細節的監控。
優(yōu)化和升級后系統的性能
- 響應速度
升級后,監控中心對監控數據的響應速度有了明顯的提高,報警數據從現場(chǎng)發(fā)生到監控中心的反應時(shí)間在10秒以?xún)取?BR> - 通信的主備路由功能
系統升級后,增加了系統通信的主備路由功能,主服務(wù)器運行主通信服務(wù)程序,備用服務(wù)器運行備用通信服務(wù)程序。當主服務(wù)器失效時(shí),系統自動(dòng)切換到備用服務(wù)器上,使用備用數據庫和備用通信服務(wù)程序。端局可以動(dòng)態(tài)的接入任意一個(gè)中心通信服務(wù)器,由此在中心實(shí)現動(dòng)態(tài)的負載均衡和通信備份功能,再不會(huì )因為某一臺通信服務(wù)器的故障而使中心和端局的通信中斷。
當前通過(guò)97網(wǎng)接入的局向,可以配置一個(gè)撥號解調器,當97網(wǎng)出現故障時(shí),自動(dòng)啟用撥號備用路由進(jìn)行通信。
- 系統的擴容能力
當前使用的系統,監控中心的承載能力是有限的。系統升級后,系統構架是專(zhuān)網(wǎng),通過(guò)以太網(wǎng)絡(luò )設備組成三級網(wǎng)絡(luò )系統,提供可擴展光端口,而且是點(diǎn)對點(diǎn)樹(shù)狀結構,有極強擴展能力,不會(huì )產(chǎn)生傳輸瓶頸。
區域中心可以隨時(shí)接入新的通信服務(wù)器分擔通信及數據處理的任務(wù)。這樣,整個(gè)系統的實(shí)際擴容能力將不再受網(wǎng)絡(luò )結構的限制。
- 監控中心的兼容性
系統升級后的通信服務(wù)器支持unix、redhat linux平臺,因此不必再選用昂貴的alpha服務(wù)器;甚至在規模較小時(shí),可采用性能良好的pc做同心服務(wù)器。在規模較大的監控系統中,可采用多通信服務(wù)器協(xié)同處理數據,這樣并不需要配置太高的服務(wù)器也能達到很高的處理能力和接入能力。
- 數據庫的壓力減小
系統升級后,監控站和通信服務(wù)器對數據庫的連接數量和訪(fǎng)問(wèn)次數減少,從而減輕數據庫的壓力,使系統接入能力大大增強。同時(shí),數據表的數量的減少,方便了數據庫表的維護。
結論
通過(guò)對監控系統的優(yōu)化和升級,監控軟硬件更加趨于模塊化、組態(tài)化,使監控系統在運行速度、系統的容錯能力和可擴容能力都有很大提高,人機界面更加好友。實(shí)現了無(wú)人值守,節省運行費用,保證被監控設備運行正常,達到提高效率、減員增效的目的。
參考文獻
1、郵電部電信總局 《通信電源、機房空調集中監控管理系統技術(shù)要求》郵電部電信總局 ydn023-1996
2、計算機軟件質(zhì)量保證計劃規范. gb/t12504-90
3、電網(wǎng)綜《1997》472號文. 通信電源、機房空調集中監控管理系統暫行規定
評論