Linux新技術(shù)對象存儲文件系統
2、并發(fā)數據訪(fǎng)問(wèn)對象存儲體系結構定義了一個(gè)新的、更加智能化的磁盤(pán)接口OSD。OSD是與網(wǎng)絡(luò )連接的設備,它自身包含存儲介質(zhì),如磁盤(pán)或磁帶,并具有足夠的智能可以管理本地存儲的數據。計算結點(diǎn)直接與OSD通信,訪(fǎng)問(wèn)它存儲的數據,由于OSD具有智能,因此不需要文件服務(wù)器的介入。如果將文件系統的數據分布在多個(gè)OSD上,則聚合I/O速率和數據吞吐率將線(xiàn)性增長(cháng),對絕大多數Linux集群應用來(lái)說(shuō),持續的I/O聚合帶寬和吞吐率對較多數目的計算結點(diǎn)是非常重要的。對象存儲結構提供的性能是目前其它存儲結構難以達到的,如ActiveScale對象存儲文件系統的帶寬可以達到10GB/s。
2.3 Lustre對象存儲文件系統
Lustre對象存儲文件系統就是由客戶(hù)端(client)、存儲服務(wù)器(OST,Object Storage Target)和元數據服務(wù)器(MDS)三個(gè)主要部分組成。Lustre的客戶(hù)端運行Lustre文件系統,它和OST進(jìn)行文件數據I/O的交互,和MDS進(jìn)行命名空間操作的交互。為了提高Lustre文件系統的性能,通常Client、OST和MDS是分離,當然這些子系統也可以運行在同一個(gè)系統中。其三個(gè)主要部分如圖1所示。
Lustre是一個(gè)透明的全局文件系統,客戶(hù)端可以透明地訪(fǎng)問(wèn)集群文件系統中的數據,而無(wú)需知道這些數據的實(shí)際存儲位置??蛻?hù)端通過(guò)網(wǎng)絡(luò )讀取服務(wù)器上的數據,存儲服務(wù)器負責實(shí)際文件系統的讀寫(xiě)操作以及存儲設備的連接,元數據服務(wù)器負責文件系統目錄結構、文件權限和文件的擴展屬性以及維護整個(gè)文件系統的數據一致性和響應客戶(hù)端的請求。 Lustre把文件當作由元數據服務(wù)器定位的對象,元數據服務(wù)器指導實(shí)際的文件I/O請求到存儲服務(wù)器,存儲服務(wù)器管理在基于對象的磁盤(pán)組上的物理存儲。由于采用元數據和存儲數據相分離的技術(shù),可以充分分離計算和存儲資源,使得客戶(hù)端計算機可以專(zhuān)注于用戶(hù)和應用程序的請求;存儲服務(wù)器和元數據服務(wù)器專(zhuān)注于讀、傳輸和寫(xiě)數據。存儲服務(wù)器端的數據備份和存儲配置以及存儲服務(wù)器擴充等操作不會(huì )影響到客戶(hù)端,存儲服務(wù)器和元數據服務(wù)器均不會(huì )成為性能瓶頸。
Lustre的全局命名空間為文件系統的所有客戶(hù)端提供了一個(gè)有效的全局唯一的目錄樹(shù),并將數據條塊化,再把數據分配到各個(gè)存儲服務(wù)器上,提供了比傳統SAN的塊共享更為靈活的共享訪(fǎng)問(wèn)方式。全局目錄樹(shù)消除了在客戶(hù)端的配置信息,并且在配置信息更新時(shí)仍然保持有效。
三、測試和結論
1、Lustre iozone測試
針對對象存儲文件系統,我們對Lustre文件系統作了初步測試,具體配置如下:
3臺雙至強系統:CPU:1.7GHz,內存:1GB,千兆位以太網(wǎng)
Lustre文件系統:lustre-1.0.2
Linux版本:RedHat 8
測試程序:iozone
測試結果如下:
塊寫(xiě)(MB/s/thread) 單線(xiàn)程 兩個(gè)線(xiàn)程
Lustre 1個(gè)OST 2個(gè)OST 1個(gè)OST 2個(gè)OST
21.7 50 12.8 24.8
NFS 12 5.8
從以上的測試表明,單一OST的寫(xiě)帶寬比NFS好,2個(gè)OST的擴展性很好,顯示strip的效果,兩個(gè)線(xiàn)程的聚合帶寬基本等于飽和帶寬,但lustre客戶(hù)方的CPU利用率非常高(90%以上),測試系統的規模(三個(gè)節點(diǎn))受限,所以沒(méi)有向上擴展OST和client數量。另外,lustre的cache對文件寫(xiě)的性能提升比NFS好。通過(guò)bonnie++初步測試了lustre的元數據處理能力,和NFS比,文件創(chuàng )建速度相對快一些,readdir速度慢。
2、lustre小規模測試數據(文件寫(xiě)測試,單位KB/s):
硬件:Dual Xeon1.7,GigE, SCSI Ultra160 軟件:RedHat8,iozone
從初步的測試看,lustre的性能和可擴展性都不錯。與傳統的文件系統相比,對象存儲文件系統具有以下優(yōu)勢:
(1)性能。對象存儲體系結構沒(méi)有其它共享存儲系統中的元數據管理器瓶頸。NAS系統使用一個(gè)集中的文件服務(wù)器作為元數據管理器,一些SAN文件系統則采用集中的鎖管理器,最后元數據管理將成為一個(gè)瓶頸。對象存儲體系結構類(lèi)似于SAN,每個(gè)結點(diǎn)都可以直接訪(fǎng)問(wèn)它的存儲設備。對象存儲體系結構對SAN的改進(jìn)是沒(méi)有RAID控制器的瓶頸問(wèn)題,當計算結點(diǎn)的規模增大時(shí),該優(yōu)勢將非常明顯,所有結點(diǎn)的總吞吐率最后將受限于存儲系統的規模和網(wǎng)絡(luò )的性能。存儲對象結點(diǎn)發(fā)送數據到OSD,OSD自動(dòng)優(yōu)化數據的分布,這樣減少了計算結點(diǎn)的負擔,并允許向多個(gè)OSD并行讀寫(xiě),最大化單個(gè)Client的吞吐率。
(2)可擴展性。將負載分布到多個(gè)智能的OSD,并用網(wǎng)絡(luò )和軟件將它們有機結合起來(lái),消除了可擴展問(wèn)題。一個(gè)對象存儲系統有內存、處理器、磁盤(pán)系統等,允許它們增加其存儲處理能力而與系統其它部分無(wú)關(guān)。如果對象存儲系統沒(méi)有足夠的存儲處理能力,可以增加OSD,確保線(xiàn)性增加性能。
(3)OSD分擔主要的元數據服務(wù)任務(wù)。元數據管理能力通常是共享存儲系統的瓶頸,所有計算結點(diǎn)和存儲結點(diǎn)都需要訪(fǎng)問(wèn)它。在對象存儲結構中,元數據服務(wù)有兩部分組成:inode元數據,管理介質(zhì)上的存儲塊分布;文件元數據,管理文件系統的文件層次結構和目錄。對象存儲結構增加了元數據訪(fǎng)問(wèn)的可擴展,OSD負責自己的inode元數據,增加一個(gè)OSD可以增加磁盤(pán)容量,并可以增加元數據管理資源。而傳統的NAS服務(wù)器增加更多的磁盤(pán),則性能將更慢。對象存儲系統在容量擴展時(shí),確保持續的吞吐率。
(4)易管理。智能化的分布對象存儲結構可以簡(jiǎn)化存儲管理任務(wù),可以簡(jiǎn)化數據優(yōu)化分布的任務(wù)。例如,新增存儲容量可以自動(dòng)合并到存儲系統中,因為OSD可以接受來(lái)自計算結點(diǎn)發(fā)出的對象請求。系統管理員不需要創(chuàng )建LUN,不需要重新調整分區,不需要重新平衡邏輯卷,不需要更新文件服務(wù)器等。RAID塊可自動(dòng)擴展到新的對象,充分利用新增的OSD。
(5)安全。傳統的存儲系統通常依賴(lài)于Client的身份認證和私有的網(wǎng)絡(luò )確保系統安全。對象存儲結構在每個(gè)級別都提供安全功能,主要包括存儲設備的身份認證,計算結點(diǎn)的身份認證,計算結點(diǎn)命令的身份認證,所有命令的完整性檢查,基于IPSec的私有數據和命令等。這些安全級別可以確保用戶(hù)使用更高效、更易獲得的網(wǎng)絡(luò ),如以太網(wǎng)等。目前panasas已經(jīng)推出了商業(yè)化的對象存儲全局文件系統ActiveScale,對象存儲正在被重視,Lustre也已經(jīng)在(ALC、MCR)或將(RedStorm)在多個(gè)大規模集群上應用,因而對象存儲文件系統將成為未來(lái)集群存儲的重要發(fā)展方向。
評論