海量存儲機群系統中提高系統MTTF的設計和分析
從圖上可以很明顯地看到三個(gè)特點(diǎn)。第一,在相同節點(diǎn)數目下,備份數越多,系統的MTTF越大,這是所預期的。第二,當節點(diǎn)數目達到1000的時(shí)候,在2個(gè)備份的情況下,系統MTTF小于1小時(shí);在3個(gè)備份的情況下,系統MTTF仍能保持在400小時(shí)(約為16天)左右。這些值與前面的理論分析基本一致,數值都在相同的數量級。第三,當備份數只有1或2個(gè)的時(shí)候,隨著(zhù)節點(diǎn)數的增加,系統MTTF顯著(zhù)下降;而當備份數是3個(gè)的時(shí)候,隨著(zhù)節點(diǎn)數的增加,系統MTTF基本保持不變。這個(gè)現象可以解釋如下。首先,當備份數只有1或2個(gè)的時(shí)候,系統MTTF隨著(zhù)節點(diǎn)數的增加而下降的原因是:當節點(diǎn)數增多時(shí),系統中出現節點(diǎn)失效的可能性就增大。比如,對于一個(gè)包含1000個(gè)節點(diǎn)的機群系統,若每個(gè)節點(diǎn)的失效速率為l,則系統中出現節點(diǎn)失效的速率為1000l。在這樣高的失效速率下,很容易發(fā)生包含同一個(gè)狀態(tài)塊備份的兩個(gè)節點(diǎn)(當備份數為2時(shí))幾乎同時(shí)失效。另外,隨節點(diǎn)數的增多,狀態(tài)塊的數目也成倍增加,這也增加了系統中出現某狀態(tài)塊丟失的可能性。其次,當備份數有3個(gè)的時(shí)候,系統MTTF隨著(zhù)節點(diǎn)數的增加能保持穩定的原因是:當節點(diǎn)數增多時(shí),雖然系統中出現某個(gè)節點(diǎn)失效的可能性增大,會(huì )降低系統MTTF,但另一個(gè)能起到相反的作用因素顯著(zhù)表現出來(lái)。這個(gè)因素就是通過(guò)并發(fā)拷貝操作,大大降低對象狀態(tài)轉移時(shí)間。舉個(gè)例子。假設一個(gè)機群系統有1000個(gè)節點(diǎn),每個(gè)節點(diǎn)存儲著(zhù)100個(gè)狀態(tài)塊,每個(gè)狀態(tài)塊大小為64M。當一個(gè)節點(diǎn)失效后,系統就會(huì )為其上的100個(gè)狀態(tài)塊尋找一對源節點(diǎn)和目標節點(diǎn)進(jìn)行轉移。正常情況下,在100Mb/s的網(wǎng)絡(luò )里,若只使用一半帶寬的話(huà),轉移一個(gè)狀態(tài)塊需要(64MB*8b/B*2)/(100Mb/s),即,近似為10秒。那么,轉移100個(gè)狀態(tài)塊需要1000秒左右,即,近似為15分鐘,這是很長(cháng)的一段時(shí)間。但考慮到系統中有1000個(gè)節點(diǎn),很容易找到這樣100對源節點(diǎn)和目標節點(diǎn),它們沒(méi)有任何兩個(gè)節點(diǎn)是相同的。在這種情況下,拷貝操作完全可以并發(fā)進(jìn)行,100個(gè)狀態(tài)塊可在10秒內拷貝完畢,這是很短的一段時(shí)間。
縮短拷貝時(shí)間的最大好處是,在拷貝期間發(fā)生新節點(diǎn)失效的可能性減小,進(jìn)而這樣就可以減小某個(gè)狀態(tài)塊丟失的可能性。為了證明降低拷貝時(shí)間的作用,考慮如下對比實(shí)驗。對于備份數為2和3的那兩組實(shí)驗,將原先的tratio的限制舍棄不用,而限制系統中正在進(jìn)行拷貝的節點(diǎn)數目的上限為10個(gè)。如果實(shí)驗的結果表明,隨節點(diǎn)數的增加,系統MTTF顯著(zhù)降低,那么就證明了降低拷貝時(shí)間對提高系統MTTF的作用。圖3顯示的是得到的實(shí)驗結果。作為對比,把沒(méi)有該限制的原實(shí)驗結果也畫(huà)在圖上,用虛線(xiàn)表示。實(shí)驗的結果正如所預料的,在兩種實(shí)驗情況下,系統MTTF都隨節點(diǎn)數增加,而顯著(zhù)降低。特別地,當節點(diǎn)數為1000時(shí),在備份數為2的情況下,系統MTTF遠低于1小時(shí);在備份數為3的情況下,系統MTTF只有2小時(shí)左右。這些性能數據,都比原先沒(méi)有該限制的實(shí)驗,要低得多。
圖3有并發(fā)限制與無(wú)并發(fā)限制的比較
5 結論
本文提出了一個(gè)新的動(dòng)態(tài)備份策略,并行數據備份策略。研究表明,該策略可顯著(zhù)地提高系統的MTTF。特別地,當系統節點(diǎn)數目達到1000的時(shí)候,在3個(gè)備份的情況下,系統MTTF仍能保持在幾十天的數量級。并且指出該策略的有效性主要來(lái)源于通過(guò)并發(fā)拷貝操作,大大降低了對象狀態(tài)的轉移時(shí)間。
本文創(chuàng )新點(diǎn)
本文提出了一個(gè)新的動(dòng)態(tài)備份策略,并行數據備份策略。通過(guò)詳細的理論分析和仿真實(shí)驗,指出該策略可以在系統中當節點(diǎn)數達到成百上千時(shí)顯著(zhù)地提高系統的MTTF。該策略若使用在海量存儲系統中,可以顯著(zhù)地提高數據的可靠性。
評論