SDH傳輸故障處理分析
傳輸故障定位的基本原則
眾所周知,傳輸故障定位一般應遵循“先搶通后修復、先外部后傳輸、先單站后單板、先線(xiàn)路后支路、先高級后低級”的原則。
1.先搶通后修復
在出現故障時(shí),系統維護者要首先搶通業(yè)務(wù)然后進(jìn)行故障修復。如果存在影響業(yè)務(wù)情況下的傳輸網(wǎng)絡(luò )告警故障,如在2Mbit/s業(yè)務(wù)通道出現 LOS(信號丟失)告警,因外線(xiàn)原因導致的收無(wú)光告警,單元盤(pán)故障產(chǎn)生的UnitFailure(單元失效)告警等情況下產(chǎn)生的故障,必須首先搶通業(yè)務(wù)。
不過(guò)要想先搶通業(yè)務(wù)需要一個(gè)先決條件,那就是網(wǎng)絡(luò )中有與故障通道相同起始點(diǎn)的可用通道資源或與故障板件相同的可用備板。
2.先外部后傳輸
在處理故障時(shí)應先排除外部的可能因素,如斷纖、終端設備故障、電源或機房環(huán)境配套故障等,而后進(jìn)行傳輸系統原因查找。當可能存在外界因素影響而產(chǎn)生傳輸網(wǎng)絡(luò )告警故障時(shí),如設備溫度告警、光路告警、網(wǎng)元失效告警,也需照此原則處理。
3.先單站后單板
指在查找傳輸設備故障原因時(shí),需要先定位到站點(diǎn)再定位到板件。
一般設備故障時(shí),不會(huì )只是一個(gè)站點(diǎn)出現告警,而是在很多站點(diǎn)同時(shí)上報告警。這時(shí)就需要通過(guò)分析和判斷縮小范圍,快速、準確地定位是哪個(gè)單站的問(wèn)題,而后盡可能準確地將故障定位到單站后再具體定位到單板。如處理光路誤碼、光功率異常等告警處理時(shí),需要結合業(yè)務(wù)信號流,對告警與性能事件一起進(jìn)行分析??刹捎铆h(huán)回法、替代法、數據分析法、儀表測試法來(lái)判斷告警及故障產(chǎn)生的原因,將其定位到單板。
4.先線(xiàn)路后支路
在處理故障時(shí),如果支路出現了大量AIS告警,這時(shí)需要先排除線(xiàn)路板故障再查看支路板故障。
由于傳輸系統線(xiàn)路板的故障常常會(huì )引起支路板的異常告警,在處理告警時(shí),應按“先線(xiàn)路后支路”的順序,排除網(wǎng)管告警;如支路出現大量AIS則首先查看線(xiàn)路板是否出現LOS告警或其他異常告警,再查看支路板告警。
5.先高級后低級
在進(jìn)行告警分析時(shí),先分析高級別告警再分析低級別告警。
特別是當高、低級別告警同時(shí)存在時(shí),應首先分析級別高的告警,如緊急告警、主要告警,然后再分析低級別的告警,如次要告警、一般告警。處理告警時(shí),系統維護者先處理影響業(yè)務(wù)的告警。如果這些告警是由更高一級的告警引起的,則先處理更高一級的告警,如AIS、LOP等。如果是由LOS引發(fā)的,要先處理LOS告警。
傳輸故障形成原因
導致傳輸故障的原因很多,按照故障的來(lái)源,大體上可分為工程施工缺陷、日常維護操作不當、設備對接失敗、設備外部原因及設備本身原因等。
1.工程施工不規范、質(zhì)量差
此類(lèi)故障有的在施工期間就能暴露出來(lái),有的可能在設備運行一段時(shí)間或某些外因作用下,才暴露出來(lái),從而為設備的穩定運行埋下隱患。為了杜絕此類(lèi)故障,施工人員需要嚴格按工程規范施工安裝,認真細致地按規范要求進(jìn)行單點(diǎn)和全網(wǎng)的調試和測試。
2.日常維護操作不當
維護人員由于對系統了解不夠深入細致,對具體設備的細節、性能特點(diǎn)和注意事項以及新老設備和新舊版本的特點(diǎn)和差別不清楚,就貿然開(kāi)通而容易導致故障。此類(lèi)故障最容易在升級擴容、新老設備及版本混用、使用新版的備板和使用未經(jīng)系統聯(lián)調的板件的情況下出現。
3.設備對接失敗
由于傳送業(yè)務(wù)的多樣性和業(yè)務(wù)對傳輸通道性能需求的復雜性,傳輸設備的對接十分復雜,這時(shí)容易出現系列問(wèn)題,比如線(xiàn)纜連接錯誤,設備接地不符合要求,傳輸、交換網(wǎng)絡(luò )之間時(shí)鐘同步異常,SDH幀結構中開(kāi)銷(xiāo)字節的定義差別等,都會(huì )導致故障的產(chǎn)生。
4.設備外部原因
設備外部故障也將導致傳輸故障。導致傳輸故障的外部原因很多,包括:一、電源系統及配套故障。如交流停電、直流掉電、熔斷器故障、供電電壓過(guò)低、接地不良、環(huán)境劣化等;二、光纖光纜故障。如光纜線(xiàn)路中斷,光纜線(xiàn)路衰耗過(guò)大、尾纖斷,尾纖彎曲半徑過(guò)小,法蘭盤(pán)接頭有灰塵及尾纖頭臟等;三、電纜故障。如2Mbit/s電纜中斷,2Mbit/s接口輸入輸出端口脫落、松動(dòng)而造成的接觸不良等;四、交換機故障。
5.設備本身原因
這指的是設備本身?yè)p壞或板件配合存在著(zhù)問(wèn)題。常見(jiàn)的現象有:一、單盤(pán)故障。如線(xiàn)路板、2Mbit/s板、時(shí)鐘板、交叉板、主控板等器件損壞;二、網(wǎng)管系統故障。包括網(wǎng)管與設備之間的網(wǎng)線(xiàn)故障或系統異常而造成的ECC通道中斷、死機等情況。
需要提醒的是,設備在運行較長(cháng)時(shí)間后,板件會(huì )自然老化,這種由于設備老化而產(chǎn)生的故障也屬于此類(lèi)。設備老化故障有一個(gè)共同特點(diǎn):設備已使用較長(cháng)時(shí)間,故障之前設 備基本正常,故障只是在個(gè)別點(diǎn)、個(gè)別板件出現,或在一些外因作用下出現。
故障處理思路
在遇到故障時(shí),系統維護者應該不慌不亂,仔細查看故障現象并分析可能原因,從而做到有的放矢,迅速處理。故障處理一般應遵循“先看,再問(wèn),然后思考,最后動(dòng)手”的思路。
系統維護者到達現場(chǎng)后首先查看故障的現象,包括故障出現的位置,有哪些告警,故障的嚴重程度,造成的危害等,這樣才能夠明白故障的本質(zhì)。
查看完現象后,系統維護者應詢(xún)問(wèn)各階段現場(chǎng)人員,該現象是由何種原因造成,比如是否有人修改了數據,刪除了文件,更換了電路板;是否遭遇停電或雷擊,是否存在操作不當現象。
根據以上結果,系統維護者再結合自己的知識思考、分析,判斷何種原因可能引起該種故障等,做出較為正確的判斷。最后根據故障定位原則找出故障點(diǎn),通過(guò)修改數據、更換單板等方法排除故障。
常見(jiàn)傳輸故障處理方法
常見(jiàn)的傳輸故障處理方法包括觀(guān)察分析法、環(huán)回測試法、插拔法、替換法、配置數據分析法、更改配置法、儀表測試法和經(jīng)驗處理法。
1.觀(guān)察分析法
系統故障時(shí)一般會(huì )伴有相應的告警信息。通過(guò)觀(guān)察告警燈運行情況,可以及時(shí)發(fā)現故障。故障發(fā)生時(shí),網(wǎng)管上也會(huì )記錄非常豐富的告警事件和性能數據信息,通過(guò)分析這些信息,并結合SDH幀結構中的開(kāi)銷(xiāo)字節和SDH告警原理機制,初步判斷故障類(lèi)型和故障點(diǎn)的位置。
2.環(huán)回測試法
有時(shí)觀(guān)察分析法不能解決問(wèn)題,如組網(wǎng)、業(yè)務(wù)以及故障信息相當復雜的情況和無(wú)明顯告警和性能信息上報的特殊故障情況。系統維護者可以利用網(wǎng)管提供的維護功能進(jìn)行測試,判斷故障點(diǎn)和類(lèi)型。最常見(jiàn)的方法是環(huán)回。
環(huán)回是定位故障點(diǎn)最有效和常用的方法,它不需要對告警和性能做太深入的分析,缺點(diǎn)是會(huì )影響業(yè)務(wù),一般在業(yè)務(wù)量小的時(shí)候使用。
3.插拔法
當發(fā)現某種電路板有故障時(shí),系統維護者可以通過(guò)插拔一下電路板和外部接口插頭的方法,排除因接觸不良或處理機異常產(chǎn)生的故障。在插拔時(shí),系統維護者要注意遵循單板插拔的操作規范,以免導致其它問(wèn)題甚至損壞板件。
4.替換法
當用插拔法不能解決問(wèn)題時(shí),可以考慮替換法。替換法就是使用一個(gè)正常的備件去替換一個(gè)被懷疑工作不正常的元件,從而實(shí)現故障的定位和排除。
替換法適用于排除傳輸外部設備的問(wèn)題,如光纖、中繼電纜、交換機、供電設備等?;蚬收隙ㄎ坏絾握竞?,用于排除單站內單板的問(wèn)題。如某站光板有告警,我們懷疑收發(fā)光纖接反,則可將收、發(fā)兩根光纖互換。若互換后,光板告警消失,就說(shuō)明確實(shí)光纖接反。
替換法的優(yōu)點(diǎn)在于方法簡(jiǎn)單,對維護人員要求不高,比較實(shí)用,但對備件有要求。另外替換插拔電路板時(shí),需要按照操作規范執行。
5.配置數據分析法
配置數據分析法是指通過(guò)開(kāi)銷(xiāo)字節配置及狀態(tài)分析、更改交叉連接等手段對告警進(jìn)行輔助判斷和處理的故障排除方法。
配置數據分析法的優(yōu)點(diǎn)是不影響業(yè)務(wù),不需要儀表,能夠正確識別硬件連接錯位,處理效率高。但是故障定位的時(shí)間相對較長(cháng),且對維護人員的要求非常高。一般只有對設備非常熟悉且經(jīng)驗非常豐富的維護人員才能使用。在使用該方法時(shí),應盡量選擇J0/J1/V3等不影響業(yè)務(wù)的蹤跡字節和其他狀態(tài)字節。
6.更改配置法
更改配置法是對時(shí)隙、板位、單板參數重新進(jìn)行配置。故適用于故障定位到單個(gè)站點(diǎn)后,排除由于配置錯誤而導致的故障。
當通過(guò)更改時(shí)隙配置不能將故障確切地定位到是哪塊單板的問(wèn)題時(shí),需進(jìn)一步通過(guò)替換法進(jìn)行故障定位。因此該方法適用于沒(méi)有備板的情況下,初步定位故障類(lèi)型,并使用其他業(yè)務(wù)通道或板位暫時(shí)恢復業(yè)務(wù)。
該方法操作起來(lái)比較復雜,對維護人員的水平要求較高。因此,除非在沒(méi)有備板的情況下用于臨時(shí)恢復業(yè)務(wù),或用于定位指針調整問(wèn)題,一般情況不推薦使用。
7.儀表測試法
儀表測試法一般用于排除傳輸設備外部問(wèn)題以及與其它設備的對接問(wèn)題。傳輸設備常用測試儀表包括2Mbit/s誤碼測試儀、SDH測試儀、光譜分析儀等。
通過(guò)儀表測試法分析定位故障比較準確。缺點(diǎn)是對儀表有需求,同時(shí)對維護人員的要求也較高。
8.經(jīng)驗處理法
在一些特殊的情況下,如由于瞬間供電異常,低壓或外部強烈的電磁干擾,致使傳輸設備某些單板進(jìn)入異常工作狀態(tài)。此時(shí)的故障現象,如業(yè)務(wù)中斷、 ECC通信中斷等,可能伴隨相應的告警,也可能沒(méi)有任何告警,檢查各單板的配置數據可能也是完全正常的。經(jīng)驗證明,在這種情況下,系統維護者通過(guò)復位單板,網(wǎng)元掉電重啟,重新下發(fā)配置或將業(yè)務(wù)倒換到備用通道等手段,可有效地及時(shí)排除故障、恢復業(yè)務(wù)。
建議系統維護者盡量少使用該方法來(lái)處理,因為該方法不利于故障原因的徹底查清。遇到這種情況,除非情況緊急,一般還是應盡量使用前面介紹的幾種方法,或通過(guò)正確渠道請求技術(shù)支援,盡可能地將故 障定位出來(lái),以消除設備內外的隱患。
典型案例分析
為了更深入地理解傳輸故障的處理思路和方法,現對幾個(gè)典型的案例進(jìn)行分析。
1.傳輸2Mbit/s線(xiàn)故障引起業(yè)務(wù)中斷
故障現象:某網(wǎng)元2Mbit/s業(yè)務(wù)中斷,傳輸設備為華為155/622H,傳輸設備上有T-LOS告警。
故障分析:由于傳輸設備上有T-LOS告警,系統維護者可以肯定傳輸設備光路沒(méi)有任何問(wèn)題。因為在傳輸設備到網(wǎng)元的2Mbit/s電路上有故障,所以問(wèn)題可能出在傳輸設備電接口板SP1D或是2Mbit/s線(xiàn)故障。
故障定位和解決步驟:到站先用環(huán)回的方式判斷故障點(diǎn),在DDF架上做遠端環(huán)回時(shí),傳輸設備仍有T-LOS告警,做近端環(huán)回時(shí)通路正常,說(shuō)明是 DDF架到SP1D板的2Mbit/s線(xiàn)有問(wèn)題,且是SP1D板到DDF架上的發(fā)支路故障,與開(kāi)始的分析吻合。由于SP1D板到DDF架上的2Mbit /s線(xiàn)是成品線(xiàn),無(wú)法修復,只有將SP1D板上未用的2Mbit/s成品線(xiàn)與故障線(xiàn)成功對換后,告警消除,放通2Mbit/s,業(yè)務(wù)才恢復正常。為保證以后業(yè)務(wù)的正常開(kāi)通,系統維護者最后將壞的那根2Mbit/s成品線(xiàn)換下,以保證所有2Mbit/s線(xiàn)是正常的。
結論:此故障是一個(gè)典型的2Mbit/s線(xiàn)故障引起業(yè)務(wù)中斷案例,在這個(gè)案例中,我們根據故障現象,預先分析出故障屬于2Mbit/s電路故障,并由最常規的環(huán)回方式來(lái)判斷故障點(diǎn),找到故障點(diǎn)后迅速地恢復業(yè)務(wù)。
2.電壓異常導致業(yè)務(wù)中斷
故障現象:某局傳輸組網(wǎng)為4個(gè)OptiX2500設備組成雙向復用段保護環(huán),1號網(wǎng)元為業(yè)務(wù)中心點(diǎn),接有網(wǎng)管計算機。某日,該局3號網(wǎng)元業(yè)務(wù)中斷,從網(wǎng)管無(wú)法登錄該網(wǎng)元,且2、4號網(wǎng)元對應3號網(wǎng)元光板報“R-LOS”告警。
故障分析及排除:從故障現象分析,應該是3號網(wǎng)元掉電;當系統維護者趕到3號網(wǎng)元,發(fā)現3號網(wǎng)元機架告警燈及單板指示燈全滅。測量-48V與BGND接線(xiàn)柱之間的電壓為0V;測量電源設備輸出電壓,為-53.7V,但電源設備有輸出電壓不正常告警。
此時(shí)系統維護者懷疑傳輸設備內部短路。關(guān)閉3號網(wǎng)元機柜子架電源開(kāi)關(guān),重新測量-48V與BGND接線(xiàn)柱之間的電壓,為-20.39V,可能是機柜電源盒局部短路將電位拉低。
關(guān)閉電源設備給傳輸設備供電的一路電源(拔下電源保險),斷開(kāi)傳輸設備電源輸入電纜,在子架電源開(kāi)關(guān)關(guān)閉的情況下測量-48V與BGND之間的電阻,為幾千歐姆,正常。
系統維護者懷疑電源電纜壓降過(guò)大,測量-48V、BGND電纜的電阻,均為零點(diǎn)幾歐姆,正常。進(jìn)一步測量拔下的電源保險,發(fā)現其電阻已達到十千歐級,故障原因就出在電源保險上。
換上正常的保險,重新給3號網(wǎng)元加電,一切正常。
結論:電源保險損壞,但并未開(kāi)路,由于其電阻值變得很大,因此雖然輸出電壓正常,但實(shí)際并無(wú)帶負載的能力。因此,在遇到傳輸設備輸出電壓不正常的時(shí)候,系統維護者除了考慮傳輸設備的故障因素,還要同時(shí)對電源設備進(jìn)行檢查。
3.線(xiàn)路人為盜割中斷引起業(yè)務(wù)中斷
故障現象:某傳輸網(wǎng)XXX01網(wǎng)元~XXX網(wǎng)元,兩傳輸網(wǎng)元互報R-LOS告警,在該環(huán)上部分網(wǎng)元上報PS告警,所有網(wǎng)元均能登錄,該環(huán)上及環(huán)到鏈間的業(yè)務(wù)均得到保護,無(wú)業(yè)務(wù)中斷。告警信息有R-LOS、PS、部分備用通道TU-AIS。
原因分析:由于無(wú)業(yè)務(wù)中斷,表明環(huán)倒換正常,且兩網(wǎng)元互保R-LOS告警且均能登錄,初步斷定為該中繼段的光纜斷或設備尾纖故障。
該環(huán)為PP環(huán),其保護屬性為支路板倒換,當主用通道發(fā)生故障時(shí),支路板會(huì )倒換到另一個(gè)方向進(jìn)行選收業(yè)務(wù),同時(shí)上報PS告警和備用通道TU-AIS告警,屬正常告警。
處理過(guò)程:檢查設備尾纖、連接件、光板等,一切正常,斷定為光纜故障。經(jīng)OTDR測試,發(fā)現XXX01網(wǎng)元出局1.2km處光纜斷,巡線(xiàn)至XXX01網(wǎng)元出局1.2km處,發(fā)現該處被人為盜割。修復光纜,故障解決。
結束語(yǔ)
在SDH傳輸網(wǎng)絡(luò )的日常維護過(guò)程中,我們經(jīng)常會(huì )遇到各種故障現象并伴隨著(zhù)不同的告警指示,有時(shí)甚至出現一樣的告警指示,貌似同一故障,卻由不同的原因導致。只有透過(guò)故障的表象找到其本質(zhì),才能實(shí)現故障的準確定位并迅速排除。這就需要我們了解故障定位的基本原則,明確故障處理的思路,掌握常見(jiàn)的故障處理方法,從而從容應對各種異?,F象,提高日常維護的效果。
光譜分析儀相關(guān)文章:光譜分析儀原理
評論