淺淡網(wǎng)絡(luò )運維的緊急故障處理及對策
標簽:網(wǎng)絡(luò )維護 內網(wǎng)服務(wù) 外網(wǎng)服務(wù)
本文引用地址:http://dyxdggzs.com/article/154534.htm隨著(zhù)信息化進(jìn)程的飛速發(fā)展,網(wǎng)絡(luò )已經(jīng)成為每個(gè)現代企業(yè)必須的要素之一。相對于網(wǎng)絡(luò )維護,網(wǎng)絡(luò )運維更加側重于保障網(wǎng)絡(luò )系統的正常運行,運維有運行和維護兩層含義。對于一個(gè)系統,有時(shí)出錯我們無(wú)法預知,系統越復雜,其難維護難度更大,為了減少損失,我們盡可能地去預防各種錯誤,對于突發(fā)情況,盡可能地去修復。
在本文開(kāi)始前,筆者先給出緊急故障解決的流程圖,見(jiàn)圖一。

圖一
根據上述流程圖,我們可以一目了然明白處理網(wǎng)絡(luò )運維的緊急故障的處理流程。
當客戶(hù)端發(fā)生網(wǎng)絡(luò )中斷的故障后,首先判斷用戶(hù)(或終端)到三層網(wǎng)關(guān)設備之間通道是否存在問(wèn)題,從用戶(hù)(或終端)上ping網(wǎng)關(guān)是否能通,用戶(hù)(或終端)自身是否發(fā)生問(wèn)題。
二層網(wǎng)絡(luò )是否正常:如果用戶(hù)(或終端)ping網(wǎng)關(guān)不通,則檢查下端二層網(wǎng)絡(luò )、用戶(hù)網(wǎng)線(xiàn)、三層網(wǎng)關(guān)設備以下網(wǎng)線(xiàn)或光纖是否正常,端口是否UP,是否有CRC error報文統計。檢查二層網(wǎng)絡(luò )中的交換機設備是否能正常學(xué)習到用戶(hù)MAC地址,檢查三層網(wǎng)關(guān)設備與二層交換設備之間的連通性、二層設備的CPU利用率是否正常,是否有二層環(huán)路造成或病毒攻擊。首先確保用戶(hù)(或終端)能正常ping通網(wǎng)關(guān)設備。
三層網(wǎng)絡(luò )是否正常:可以通過(guò)telnet/console口登陸三層設備,如果有問(wèn)題,通過(guò)ping、tracert、show logging、端口統計、CPU利用率統計、鏈路狀態(tài)、路由表狀態(tài)、MPLS標簽表狀態(tài)等對問(wèn)題進(jìn)行分析,在業(yè)務(wù)忙時(shí),不得擅自重啟或倒換三層核心路由器等設備。
如果用戶(hù)上網(wǎng)或承載業(yè)務(wù)仍然存在故障,可以查看DNS等外界環(huán)境是否正常,承載的業(yè)務(wù)本身是否發(fā)生問(wèn)題,查看相關(guān)告警,然后做出相應的處理。
其它問(wèn)題,如果現場(chǎng)不能解決,就通報關(guān)鍵用戶(hù)并聯(lián)系廠(chǎng)商解決。
在本文中,筆者就以網(wǎng)絡(luò )不通的故障為例,講解網(wǎng)絡(luò )運維的緊急故障處理的比較通用的思路和解決方式。
假設有一天,接到通知報告網(wǎng)絡(luò )不通了。給人的第一感覺(jué)是某個(gè)服務(wù)出現異常而中斷,比如打不開(kāi)OA頁(yè)面,或者打不開(kāi)Google頁(yè)面。讓我們看看,一個(gè)合格的運維人員是如何循遵怎樣的思路來(lái)尋找故障的原因并解決的。
確定哪些服務(wù)中斷
首先要做的就是區分內網(wǎng)服務(wù)和外網(wǎng)服務(wù)。
在筆者所在公司中,很多自己開(kāi)發(fā)的、只限于公司員工使用的服務(wù)都是內網(wǎng)服務(wù),比如OA、郵箱、ERP等等。而像QQ、微博那樣的則屬于外網(wǎng)服務(wù)了。
在這樣的環(huán)境下,內網(wǎng)服務(wù)的網(wǎng)絡(luò )關(guān)鍵節點(diǎn)如下所示:
終端→接入交換機→聯(lián)網(wǎng)路由器→核心路由器→核心交換機→服務(wù)器
依賴(lài)的基礎服務(wù)為:內網(wǎng)DNS服務(wù)器。
外網(wǎng)服務(wù)的網(wǎng)絡(luò )關(guān)鍵節點(diǎn)如下所示:
終端→接入交換機→核心交換機→互聯(lián)網(wǎng)接入交換機→上網(wǎng)行為管理設備→互聯(lián)網(wǎng)防火墻→外網(wǎng)服務(wù)器
依賴(lài)的基礎服務(wù)為:內網(wǎng)DNS服務(wù)器,公網(wǎng)DNS服務(wù)器。
如果當前訪(fǎng)問(wèn)的服務(wù)突然中斷,那么首先看看是內網(wǎng)的服務(wù)還是外網(wǎng)的服務(wù)。然后再在內網(wǎng)和外網(wǎng)分別自選一種服務(wù)嘗試訪(fǎng)問(wèn)一下。例如ERP突然無(wú)法訪(fǎng)問(wèn)了,那就嘗試訪(fǎng)問(wèn)一下內網(wǎng)的門(mén)戶(hù)系統和郵件系統,以及外網(wǎng)的一個(gè)知名網(wǎng)站。
以下表格(表二)有助于理解故障尋找的過(guò)程和思路:


表二
確定其他人的癥狀相同
只是從自己的機器對網(wǎng)絡(luò )和服務(wù)做出判斷并不夠客觀(guān),也不夠嚴謹。前面我們已經(jīng)大致的推測出故障原因,在這一節我們嘗試對這個(gè)推測進(jìn)行證明。
要記住這一點(diǎn):可重復的結果才是基本可靠的結果。
為了證實(shí)測試結果的可重復性,我們需要從不同的網(wǎng)絡(luò )起點(diǎn)重復相同的測試步驟。
讓我們以公司的實(shí)際場(chǎng)景來(lái)闡述分析故障的思路。目前隨著(zhù)網(wǎng)絡(luò )技術(shù)的成熟,網(wǎng)絡(luò )架構也趨于穩定,一般的全省級的公司網(wǎng)絡(luò )拓撲示意圖如圖三:當然,實(shí)際工作中,地市分公司下面,根據業(yè)務(wù)需要,還會(huì )有縣級的辦公網(wǎng)絡(luò )、營(yíng)業(yè)網(wǎng)點(diǎn),實(shí)際廣域網(wǎng)絡(luò )會(huì )達到三層。
評論