基于網(wǎng)絡(luò )系統可靠性的設計
基于網(wǎng)絡(luò )系統可靠性的設計思想,其相應的測試應如何考慮與實(shí)施?本文對網(wǎng)絡(luò )方案可靠性測試的分類(lèi)及內容做詳細闡述。
本文引用地址:http://dyxdggzs.com/article/156252.htm網(wǎng)絡(luò )系統方案的可靠性主要包括:網(wǎng)絡(luò )系統的可持續性、可維護性、快速恢復機制。相應的,組網(wǎng)方案的可靠性測試,可歸納為以下幾大類(lèi):
1、網(wǎng)絡(luò )系統持續長(cháng)時(shí)間、大壓力高負荷、高頻率震蕩條件下的持續運行能力,即Duration測試。
2、網(wǎng)絡(luò )系統告警管理功能、系統故障定位手段能力評估。
3、單點(diǎn)故障情況下系統自動(dòng)恢復時(shí)間。
4、驗證鏈路聚合、MSTP、RRPP、BFD、GR、VRRP、ECMP、IRF等HA(High Availability)特性的組合部署功能,并通過(guò)調整達到最佳的組合應用效果。
5、構造各類(lèi)攻擊,從端到端對網(wǎng)絡(luò )系統進(jìn)行攻擊。此類(lèi)測試往往可以融合在Duration測試中共同完成。
1 網(wǎng)絡(luò )系統持續運行能力測試
網(wǎng)絡(luò )系統持續運行能力測試的目標是要通過(guò)更惡劣環(huán)境的測試,以確保網(wǎng)絡(luò )系統在客戶(hù)的網(wǎng)絡(luò )環(huán)境中上線(xiàn)后,在各種沖擊和壓力下,仍舊能夠保持穩定運行。測試方法很明確:在組網(wǎng)測試環(huán)境中對運營(yíng)商或者行業(yè)客戶(hù)網(wǎng)絡(luò )的控制平面和數據平面模型進(jìn)行模擬,保持環(huán)境在大壓力并且震蕩的條件下持續運行,同時(shí)監控網(wǎng)絡(luò )各個(gè)整體運行狀況作為測試結果數據。
測試參數的設計是保證測試效果的重點(diǎn)。其內容主要包括以下幾部分。
1、測試組網(wǎng)設備參數。
以客戶(hù)的原始組網(wǎng)模型進(jìn)行組網(wǎng)測試是最理想的環(huán)境。但是考慮成本因素,實(shí)際測試投入中往往難以搭建相對真實(shí)網(wǎng)絡(luò )1:1的測試網(wǎng)絡(luò )環(huán)境。為實(shí)現測試目的,充分驗證系統的可靠性,測試組網(wǎng)的抽象和取舍是重點(diǎn)。抽象簡(jiǎn)化組網(wǎng)規模的原則是:充分分析暴露網(wǎng)絡(luò )系統的性能壓力瓶頸,重點(diǎn)保留系統中的瓶頸關(guān)鍵節點(diǎn)。
例如,針對一個(gè)接入至核心層結構明晰的樹(shù)形網(wǎng)絡(luò ),常用的可行方案是在業(yè)務(wù)流量壓力最大的核心層采用1:1組網(wǎng)測試。樹(shù)形結構網(wǎng)絡(luò )的核心層的設備數量較少,這也為測試環(huán)境的1:1組網(wǎng)提供了可能性。匯聚和接入層設備數量逐層遞減,接入層設備采用幾個(gè)分支模擬真實(shí)應用,其余分支使用高性能測試儀器的多個(gè)端口直接連接在匯聚層設備上模擬拓撲和流量??筛鶕粶y試網(wǎng)絡(luò )的控制平明和數據平面路徑,靈活調整測試組網(wǎng)。
2、控制平面和數據平面參數。
即協(xié)議模型和流量模型。協(xié)議模型可以通過(guò)客戶(hù)的組網(wǎng)的規劃和行業(yè)抽象,得到較為明確的數據參數。由于應用系統與網(wǎng)絡(luò )系統的維護技術(shù)人員之間的業(yè)務(wù)理解往往存在壁壘,并且在網(wǎng)絡(luò )規劃設計階段,無(wú)法通過(guò)流量監控獲取模型,所以流量模型難以準確界定,因此成為困擾組網(wǎng)方案測試的主要因素。比較有效的手段是針對行業(yè)特征進(jìn)行分析,并結合以往的經(jīng)驗來(lái)設定普遍意義的參數。參數還可根據不同類(lèi)型客戶(hù)的實(shí)際上線(xiàn)預期進(jìn)行加權預估。
3、振蕩系數與方法。
針對控制平面和數據平面的振蕩是Duration測試的基本要求之一。網(wǎng)絡(luò )系統是一個(gè)動(dòng)態(tài)的環(huán)境。來(lái)自網(wǎng)絡(luò )系統邊緣與出口的各類(lèi)輸入輸出變化,會(huì )產(chǎn)生更大的壓力和暴露更多的瓶頸。而通過(guò)劇烈高頻度的振蕩,營(yíng)造比客戶(hù)實(shí)際環(huán)境更加惡劣的網(wǎng)絡(luò ),能夠更快更充分暴露較深或者需要較長(cháng)時(shí)間才能夠發(fā)現的缺陷。通過(guò)振蕩在測試網(wǎng)絡(luò )中掀起的狂風(fēng)巨浪,會(huì )讓我們更加明確了解網(wǎng)絡(luò )系統的健康可靠程度。
網(wǎng)絡(luò )系統測試的振蕩系數常用經(jīng)驗值為30%,即加載在測試系統的協(xié)議表項和流量在已設定的參數基礎上,周期性上下浮動(dòng)30%。并可根據需要調整以觀(guān)察不同頻率條件下的振蕩結果,例如可分別以5分鐘、10分鐘、30分鐘、1小時(shí)為一個(gè)周期。以路由條數為例,路由振蕩導致整個(gè)網(wǎng)絡(luò )系統中各個(gè)節點(diǎn)大量發(fā)布、刪除路由信息,并引發(fā)流量路徑的遷移,給予測試系統更大的不穩定性壓力。實(shí)際測試時(shí),還需要根據行業(yè)客戶(hù)應用特征網(wǎng)絡(luò )對系數進(jìn)一步分析,靈活調整。例如,互聯(lián)網(wǎng)行業(yè)客戶(hù),普遍存在搜索類(lèi)業(yè)務(wù)突發(fā),對流量振蕩的要求更高。
振蕩的模擬可通過(guò)業(yè)界常用測試儀器較為方便實(shí)現,本文不再贅述。
2 網(wǎng)絡(luò )系統告警管理功能、系統故障定位手段能力評估
網(wǎng)絡(luò )系統必須具備系統風(fēng)險預警功能和便利的故障定位維護功能。
網(wǎng)管系統對網(wǎng)絡(luò )的實(shí)時(shí)監控,預先告警功能主要包括網(wǎng)絡(luò )節點(diǎn)CPU、內存、端口流量、端口狀態(tài)等參數的監控告警。當占用率或者端口流量持續超過(guò)閾值,即可觸發(fā)告警,使管理員提前預知風(fēng)險,進(jìn)行分析維護。
系統故障定位手段為事后維護。一旦網(wǎng)絡(luò )系統產(chǎn)生故障點(diǎn),網(wǎng)絡(luò )管理系統需記錄網(wǎng)絡(luò )切換事件,方便快速幫助管理員找到故障點(diǎn),并保存故障信息和系統狀態(tài),便于后期缺陷復現定位。
維護類(lèi)測試以功能測試為主,通過(guò)打入攻擊CPU的流量、制造流量擁塞等方法構造各類(lèi)預警條件,通過(guò)shutdown或者重啟設備等命令行,插拔端口、關(guān)閉電源等手段檢驗網(wǎng)絡(luò )系統對故障點(diǎn)的定位和告警信息是否完備。若設備支持可維護性測試特性,還可通過(guò)設備軟件的可維護性測試命令,構造設備節點(diǎn)系統軟硬件故障,查看系統保存的故障狀態(tài)信息是否完備,以復現定位缺陷。
測試時(shí),同樣需在大壓力復雜條件下執行,以檢測告警、故障信息是否得到高優(yōu)先級處理。
3 單點(diǎn)故障情況下系統自動(dòng)恢復時(shí)間
網(wǎng)絡(luò )系統在出現單點(diǎn)故障情況下可快速恢復是高可靠網(wǎng)絡(luò )設計的重點(diǎn)?;謴蜁r(shí)間的要求在各類(lèi)行業(yè)和各網(wǎng)絡(luò )層有差異。目前,網(wǎng)絡(luò )系統平均恢復時(shí)間低于500ms已經(jīng)逐步成為主流要求。
與網(wǎng)絡(luò )切換相關(guān)的各種組網(wǎng)模型故障模擬主要包括:鏈路故障、節點(diǎn)設備故障、單板故障、節點(diǎn)設備主備倒換、主備設備倒換、設備升級等。各類(lèi)故障還需進(jìn)一步細分,例如節點(diǎn)設備故障包含:設備命令行執行軟件重啟,設備斷電、設備上電、主備控板全部拔出/插入等等。
為精確計算各類(lèi)故障導致的網(wǎng)絡(luò )中斷/恢復時(shí)間,組網(wǎng)如圖1所示,測試方法如下:

圖1 網(wǎng)絡(luò )系統恢復時(shí)間測試示意
評論