<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 手機與無(wú)線(xiàn)通信 > 設計應用 > 診治IP網(wǎng)絡(luò )故障解決方案

診治IP網(wǎng)絡(luò )故障解決方案

作者: 時(shí)間:2012-05-25 來(lái)源:網(wǎng)絡(luò ) 收藏

定位的復雜程度,非一般運維人員所能掌握。如何讓運維人員追本溯源,了解發(fā)生的機理,掌握從現象到定位的過(guò)程,并順利排障?

本文引用地址:http://dyxdggzs.com/article/154827.htm

管理難表現為兩點(diǎn):第一,告警數量多,甚至是泛濫,每天告警工單數量很多,但一些告警定位后,又不需要作任何恢復動(dòng)作,維護人員不堪重負。第二,故障發(fā)生卻無(wú)任何告警,只能摸索排查,定位耗時(shí)長(cháng),非常依賴(lài)人的經(jīng)驗。這兩種現象給故障管理工作帶來(lái)非常大的困擾,本文將深入診斷其發(fā)生的根源,并給出相應的治理辦法。

溯源

故障告警多

告警數量多的根源與IP兩個(gè)特點(diǎn)相關(guān),第一個(gè)特點(diǎn)是網(wǎng)絡(luò )層次多,例如一個(gè)VLL(Virtual Leased Line)業(yè)務(wù)在IP網(wǎng)絡(luò )上承載,要經(jīng)過(guò)物理層、鏈路層、路由協(xié)議、MPLS、VLL等多層次處理,若某條物理光纖發(fā)生中斷,那么物理層、鏈路層、IP傳輸層、VLL管道層將全部受到影響,這些層次也將全部發(fā)送TRAP。第二個(gè)特點(diǎn)是協(xié)議關(guān)聯(lián)多,一般物理光纖的故障將引起路由協(xié)議的收斂,再引起MPLS LDP等協(xié)議的變化,這個(gè)過(guò)程中必然要發(fā)送大量的TRAP。

無(wú)告警

無(wú)告警的問(wèn)題相對復雜。我們先回顧一下故障的定義,故障是產(chǎn)品或產(chǎn)品的一部分不能或將不能完成預期功能的事件或狀態(tài),簡(jiǎn)單地說(shuō),就是現狀不符合預期。反之,如果沒(méi)有“預期”,則不會(huì )有“故障”。實(shí)際上,正是IP網(wǎng)絡(luò )上的預期無(wú)法清晰定義,才導致了“無(wú)告警”現象的發(fā)生。我們從控制平面和轉發(fā)平面的原理出發(fā),追溯無(wú)告警發(fā)生的根源。

控制平面決定源到目的地的業(yè)務(wù)路徑。在傳統的電路網(wǎng)絡(luò )上,管理員靜態(tài)指定主備路徑,每個(gè)業(yè)務(wù)的下一跳非主即備,預期非常清晰。而在IP網(wǎng)絡(luò )上,路由協(xié)議根據網(wǎng)絡(luò )實(shí)際情況選擇最優(yōu)路徑,單個(gè)路由器只知下一跳,并不掌握業(yè)務(wù)路徑。因此,當鏈路中斷產(chǎn)生路由收斂或者路徑計算錯誤,導致路徑發(fā)生變化時(shí),路由器無(wú)法告警業(yè)務(wù)路徑切換。

華為曾遇到過(guò)這樣一個(gè)網(wǎng)上問(wèn)題,NGN語(yǔ)音業(yè)務(wù)中斷40多分鐘而IP承載網(wǎng)無(wú)任何告警,排查中發(fā)現是LSP路徑計算錯誤,其結果與ISIS路徑不一致而導致業(yè)務(wù)中斷。在這個(gè)案例里,建立LSP的協(xié)議并不掌握路徑預期,因此無(wú)法發(fā)現LSP路徑計算錯誤,也就無(wú)法發(fā)出告警通知路徑錯誤。

在轉發(fā)平面上,IP網(wǎng)絡(luò )不是同步網(wǎng)絡(luò ),其轉發(fā)機制無(wú)法定義預期,比如,業(yè)務(wù)報文要經(jīng)過(guò)路由器A、B順序轉發(fā),但是B完全不知道A是否有報文會(huì )送到,有報文送到是正常,沒(méi)有也是正常,因此當A路由器故障無(wú)法轉發(fā)報文時(shí),B無(wú)法告警。

此類(lèi)故障最常見(jiàn)的情況是路由器間的光纖劣化,光纖上發(fā)生了丟包,但路由器上無(wú)告警。對于這類(lèi)故障的排查需要花費大量的時(shí)間,需要按照承載網(wǎng)的轉發(fā)路徑,逐個(gè)路由器、逐條鏈路去排查,最終才能發(fā)現是光纖故障導致丟包。

厘清IP網(wǎng)絡(luò )故障管理難的根源后,排障的思路和措施就比較明確了,下文將給出華為針對告警多和無(wú)告警故障的解決之道。

排障

突出根源告警

前文提到,告警數量多的根源在于層次多、關(guān)聯(lián)多,底層故障衍生出大量高層告警。如果我們能夠突出根源告警,忽略或者抑制衍生告警,就不需要針對無(wú)效告警派單處理,從而減少工作量。

從華為的網(wǎng)上問(wèn)題庫中統計發(fā)現,IP網(wǎng)絡(luò )的故障根源大部分來(lái)自于硬件、鏈路的劣化。尤其是網(wǎng)絡(luò )中的鏈路,如光纖、微波等,容易受到環(huán)境影響,從而導致接口閃斷。接口反復UP/DOWN,將引發(fā)大量接口的告警,同時(shí)又引起IGP協(xié)議收斂,引發(fā)IGP反復告警,進(jìn)而引發(fā)LSP的反復告警。即鏈路的告警將衍生出大量的協(xié)議告警。

針對以上情況,華為提出兩種告警優(yōu)化的思路:第一,在告警監控中,將告警歸類(lèi)為環(huán)境、硬件、軟件、接口、鏈路管道、協(xié)議和業(yè)務(wù)等幾個(gè)類(lèi)別,環(huán)境、硬件類(lèi)告警的處理優(yōu)先級大于協(xié)議、業(yè)務(wù)類(lèi)告警。高級別告警處理恢復后,其衍生的低級別協(xié)議告警會(huì )自動(dòng)恢復。這種方法簡(jiǎn)單實(shí)用,可短期見(jiàn)效。第二,建設告警相關(guān)性系統,按協(xié)議、業(yè)務(wù)運行關(guān)系定義告警的衍生關(guān)系。在告警監控系統上,將衍生告警掛接在根源告警上顯示,管理員直接處理根源告警,這種方法可以比較完善地解決告警多的問(wèn)題,但建設困難且周期較長(cháng)。

解決“無(wú)告警故障”的關(guān)鍵在于預期和現狀的對比,我們仍從控制平面和轉發(fā)平面分別闡述。

路徑預期和檢測

盡管IP的控制平面采用了動(dòng)態(tài)協(xié)議,但其運行的基礎仍然是物理鏈路和SPF(Shortest Path First)算法,鏈路規劃越簡(jiǎn)單,路徑預期就越清晰。如在大部分的中小型城域網(wǎng)設計中,網(wǎng)絡(luò )層次少,層次之間采用主備雙鏈路進(jìn)行保護,路徑非主即備。對于這種網(wǎng)絡(luò ),只要維護好網(wǎng)絡(luò )拓撲圖,就可以滿(mǎn)足故障處理的需要。

對于大型、復雜的網(wǎng)絡(luò ),管理員通過(guò)物理鏈路的分布,已無(wú)法快速識別業(yè)務(wù)路徑。在這種情況下,需要采用仿真計算的方式,將網(wǎng)絡(luò )上的配置、拓撲等集中到仿真軟件中,計算出業(yè)務(wù)的預期路徑。

預期建立之后,采用OSS軟件定期獲取路徑的現狀并與預期對比的方式,若不一致即發(fā)送告警,并提示管理員網(wǎng)絡(luò )發(fā)生了故障。中小型、簡(jiǎn)單網(wǎng)絡(luò )可以采用TraceRt獲取路徑。大型、復雜網(wǎng)絡(luò )一般都會(huì )存在ECMP(Equal-Cost MultiPath等價(jià)多路徑),此類(lèi)情況一般可以綜合TraceRt、轉發(fā)表查詢(xún)等方式來(lái)詳細判斷業(yè)務(wù)流的路徑。另一種方式是通過(guò)分析IGP的泛洪報文,掌握路徑建立的詳細過(guò)程,根據路由算法和配置來(lái)掌握轉發(fā)路徑。

轉發(fā)預期和檢測

在轉發(fā)平面上,預期的建立和檢測非常密切,按照實(shí)現方式的不同,可以分為三種情況:非業(yè)務(wù)隨路檢測、業(yè)務(wù)隨路檢測和業(yè)務(wù)分析。

第一種是非業(yè)務(wù)隨路檢測。簡(jiǎn)單地說(shuō),就是自行定義預期,在網(wǎng)絡(luò )上注入OAM檢測報文。由于接收方已預先掌握了檢測報文的大小、時(shí)間間隔等特征,當收到的報文不符合自行定義的預期特征時(shí),即是發(fā)生故障。

這種方式的優(yōu)點(diǎn)是容易獲取和實(shí)施,網(wǎng)絡(luò )各層面均有OAM檢測協(xié)議可以使用,如BFD、EthOAM、ICMP Ping、MPLS OAM等,缺點(diǎn)是OAM檢測報文特征與業(yè)務(wù)流量特征不完全一致,可能會(huì )出現檢測未發(fā)現問(wèn)題,但實(shí)際業(yè)務(wù)卻發(fā)生了問(wèn)題的情況。


上一頁(yè) 1 2 下一頁(yè)

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>