高速光纖通道系統的測試
——
一、Fibre Channel系統
你的業(yè)務(wù)機構遲早會(huì )充滿(mǎn)Fibre Channel,有一點(diǎn)同樣可以肯定,那就是有一天你會(huì )發(fā)現,Fibre Channel系統的工作不能如你所期望的那樣。發(fā)生這樣的事情時(shí),用戶(hù)就想知道它為什么不能正常工作,這是“恢復常規”的第一步。
多年來(lái),我們已經(jīng)看到這一動(dòng)向。Fibre Channel有許多優(yōu)良的性能,使其自然適合于媒體應用。Fibre Channel不僅有很高的帶寬,而且能夠工作在相隔距離遠得多的設備之間,并允許輕松地混合視頻、音頻、圖形和控制信號,不管它們的載送是依循IP、SCSI,還是其它協(xié)議。既然已有各種供應商可提供設備,接下去就是建立系統。開(kāi)始時(shí),系統工作會(huì )是良好的。它將按期望的那樣做任何事情。但是慚慚地,隨著(zhù)應用或存儲要求的改變,或某一項要求需要升級或業(yè)務(wù)擴展,突然間,其性能顯得不足,在需要某一性能的時(shí)候卻偏偏沒(méi)有??赡艹霈F響應時(shí)間延長(cháng),或偶然地,視頻或音頻包不能及時(shí)送達,甚至根本就收不到。用戶(hù)要消除這些癥狀,就必須首先追查在Fibre Channel層面出現了什么問(wèn)題。進(jìn)行這一步的最基本工具是協(xié)議分析儀,接著(zhù)是性能監視器。這些設備只是作為觀(guān)測儀器而被接入環(huán)路或光纖網(wǎng)中,它們不會(huì )以任何形式啟動(dòng)或中止通道中的通信,或改變通信。不像SCSI中所有信息都流經(jīng)總線(xiàn)上的每一點(diǎn),Fibre Channel包含一系列固有的單向鏈路。為了解設備性能,監測點(diǎn)至少有兩個(gè),一個(gè)在上游,一個(gè)在下游。因此,所有的Fibre Channel協(xié)議分析儀都有兩個(gè)接口。較復雜的測試環(huán)境可能需要多組裝置協(xié)調運行。
二、測量儀器
為簡(jiǎn)單起見(jiàn),對這兩種工具的討論將從性能監視器而不從協(xié)議分析儀開(kāi)始。性能監視器是一種可以實(shí)時(shí)顯示所通過(guò)的傳輸流的通信量、信息統計和基本誤碼情況的裝置。特別地,對光纖通道的顯示包括:速率顯示,包括Bs、幀秒和鏈路利用率;信息表征—幀規格分配;低級誤碼情況,指編碼混亂(CV)、循環(huán)冗余檢查(CRC)失效和環(huán)路啟動(dòng)程序(LIP)事件。速率顯示是以瞬時(shí)值、峰值或對時(shí)間的曲線(xiàn)圖來(lái)表示的,誤碼情況用時(shí)間標記來(lái)存檔。協(xié)議分析儀是記錄通過(guò)它的全部信息或特定部分信息的裝置,并備有時(shí)間標記。它含有兩種等同的、有協(xié)調控制效能的獨立信道。當兩個(gè)信道不夠用時(shí),多臺分析儀能夠同步運作。被捕獲的數據可存儲到一個(gè)超高速RAM上或一個(gè)硬盤(pán)驅動(dòng)器上。一旦操作停止,用戶(hù)就能觀(guān)看捕獲的數據,或者經(jīng)軟件包后處理后產(chǎn)生詳細階性能分析。由于Fibre Channel數據將以接近每個(gè)信道100Mbs的驚人速率通過(guò)協(xié)議分析儀。如何控制所需存儲信息就非常重要。這是對示波器的觸發(fā)器功能的直接模擬。不過(guò),協(xié)議分析儀的存儲能夠多次開(kāi)始和停止。因而它能收集相似的多個(gè)案例,并允許對它們進(jìn)行獨立分析。通常Fibre Channel觸發(fā)器會(huì )在一些幀和或特定素材內切斷某些特定場(chǎng)的匹配,但是如果協(xié)議分析儀種性能監視器是鏈接的,就能在用戶(hù)的觸發(fā)事件項目上添加不同吞吐量測量和誤碼情況。有時(shí)用戶(hù)可能希望將捕獲的帶寬限制在較固定的位上,并將結果軌跡存到硬盤(pán)驅動(dòng)器上。通過(guò)這一措施,用戶(hù)能獲得數小時(shí)甚至數天之久的追查軌跡。很顯然,為進(jìn)行這類(lèi)捕獲必須非常專(zhuān)注。協(xié)議分析儀內的數據濾波器允許用戶(hù)將捕獲局限于存一個(gè)特定的源識別碼和或目標識別碼。特定類(lèi)型的命令或響應,或只是每一幀的前幾個(gè)字節(數量由用戶(hù)規定)上。那么,怎樣使用這些工具呢?
三、測試方法
要檢查的最基本項目,是Fibre Channel環(huán)路本身的完整性。只要快速瀏覽一下誤碼資料,用戶(hù)便可知道各條電路或光鏈路是遇到了麻煩還是工作正常。一旦系統啟動(dòng),除非環(huán)路上的某一設備不得不替換或環(huán)路因其他原因而中斷,LIP一般不會(huì )發(fā)生。Fibre Channel聲稱(chēng)指標為運行誤碼率低于10-12(大約每小時(shí)3個(gè)),大部分用戶(hù)報告說(shuō)其誤碼率遠低于這個(gè)值。如果誤碼存檔報告不如LIP所期望的,或每小時(shí)CV或CRC誤碼數量超過(guò)l-2個(gè),就該檢查一下環(huán)路中鏈路的完整性了。
如果鏈路完整性出了問(wèn)題,由于Fibre Channel環(huán)路就像小孩們玩的“打電話(huà)”游戲一樣,用戶(hù)就會(huì )面臨新的挑戰。除非誤碼是發(fā)生在原發(fā)地和性能監視器之間,否則用戶(hù)很難確定誤碼究竟在哪兒發(fā)生。ANSITll委員會(huì )正在試圖借助鏈路誤碼狀態(tài)功能(LinkEnor StatusFunction)來(lái)解決這個(gè)問(wèn)題,其設想是在每一個(gè)節點(diǎn)掌握誤碼事件。不過(guò),在真正做到這一點(diǎn)之前,還沒(méi)有什么簡(jiǎn)便的辦技可以識別鏈路狀態(tài)(RLS)命令對環(huán)路作定時(shí)查詢(xún),并確定在線(xiàn)路中應從哪一個(gè)端口著(zhù)手探查誤碼。
如果將性能監視器的誤碼探查效能用來(lái)觸發(fā)協(xié)議分析儀,用戶(hù)就應該能夠捕獲有誤碼的幀,并有希望查出原發(fā)地。然后用戶(hù)就能夠將性能監視器向一條鏈路的上游每移動(dòng)一次觀(guān)察一下各位置的誤碼率?!罢`碼率臺階”(EnorRate Step)一旦確定,問(wèn)題就可隔離在那個(gè)端口(或與其直接相連的下游電纜)上。
如果問(wèn)題與鏈路完整性無(wú)關(guān),另一個(gè)可能件是環(huán)路自身有過(guò)載情況。環(huán)路過(guò)載很容易用性能監視器測出來(lái)。峰值總線(xiàn)利用指示(或總線(xiàn)利用率對時(shí)間的關(guān)系曲線(xiàn))可能顯示一條擺幅異常大的利用率曲線(xiàn),它從很低的平均數(完全處在Fibre Channel容量?jì)龋┲两咏保埃埃?,它導致轉換遲緩(甚至失效)或響應緩慢。這種情況表明,可以利用性能監視器的某種門(mén)限(如:利用率超過(guò)90%)作為協(xié)議分析儀的觸發(fā)條件。包含整個(gè)峰值利用期(包括臨近起始部分)的軌跡能顯示:為什么大量的信息試圖在同一時(shí)間通過(guò)環(huán)路。即使Fibre Channel環(huán)路沒(méi)有過(guò)載,仍然有可能存在環(huán)路上某一裝置過(guò)載的情況。協(xié)議分析儀可以多種方式幫助用戶(hù)找到這種問(wèn)題的根源。
首先,可運用后捕獲軟件僅僅收集和分析幀頭部分的長(cháng)軌跡。以確定短期和長(cháng)期載荷是否平衡。如果一個(gè)裝置特別忙,其通信就應予以隔離(應用協(xié)議分析儀的濾波功能),并對其進(jìn)行詳細研究。即使沒(méi)有特殊問(wèn)題,這種初期的全設備隔離程序也要定期進(jìn)行。與早期的數據進(jìn)行比較??娠@示不安全趨勢因而提高警惕以防止在未來(lái)某一時(shí)間出問(wèn)題。
如果可即時(shí)發(fā)現響應時(shí)間或丟失數據的影響,第二種方案是連續捕獲更詳細的軌跡(“包裹模式”),一經(jīng)發(fā)現影響,立即停止捕獲。要記住,所謂“發(fā)現”并不限于人工操作,對任何錯誤的電子顯示都能與協(xié)議分析儀的外同步輸入相連。用來(lái)停止捕獲。這樣,分析儀的軌跡中就會(huì )含有引發(fā)問(wèn)題的特定事件。檢查時(shí)間標記以確認軌跡足夠長(cháng),以及包含出現問(wèn)題的時(shí)間段;不然就重新調節濾波特性(如每幀數據)以延長(cháng)捕獲期。一旦被捕獲,相同的后捕獲分析軟件或可視檢查就會(huì )顯示有問(wèn)題的裝置。如果需要更多的信息,可作第二次運行,只儲存從特殊識別碼上得到的想要的幀,以便僅從這些幀上捕獲更多的細節。丟失數據的另一個(gè)潛在原因是定時(shí)但卻無(wú)序地發(fā)送信息。出現這種情況時(shí)可用上段所述方法來(lái)監測。希望本文能夠幫助人們減少運用Fibre Channel這一激動(dòng)人心的新技術(shù)時(shí)的憂(yōu)慮。潛在的問(wèn)題還可能出現,并需要運用新的診斷方法,但是現在已經(jīng)可以得到為使系統保持高效運行狀態(tài)所需的診斷工具。
評論