基于HDFS的云存儲在高校信息資源整合中的應用
摘要:研究如何將基于HDFS的云存儲應用于整合高校信息資源,旨在通過(guò)合適的構建基于HDFS的云存儲服務(wù)系統,解決高校的海量數據存儲問(wèn)題。通過(guò)對概念的解析,結合高校信息資源存儲的特點(diǎn),構建了一個(gè)低成本、高效率、高安全性的分布式信息資源整合解決方案,并給出了系統結構圖。
關(guān)鍵詞:HDFS;云存儲;高校;分布式
海量的高校信息資源需要整合,這是當前不爭的事實(shí),因為高校信息資源存在著(zhù)資源分布不均衡、更新維護成本高、共享程度低和安全性差等一系列問(wèn)題。整合需要解決的首要問(wèn)題就是信息的合理存儲,以便實(shí)現對其高效、安全的訪(fǎng)問(wèn)。與傳統的存儲方式相比,云存儲很好地解決了這個(gè)問(wèn)題。
云存儲(Cloud Storage)是在云計算(Cloud Computing)概念上延伸和發(fā)展出來(lái)的一個(gè)新的概念,它是指通過(guò)集群應用、網(wǎng)格技術(shù)或分布式文件系統等功能,將網(wǎng)絡(luò )中大量各種不同類(lèi)型的存儲設備通過(guò)應用軟件集合起來(lái)協(xié)同工作,共同對外提供數據存儲和業(yè)務(wù)訪(fǎng)問(wèn)功能的一個(gè)系統。
1 存儲方式的比較
高可靠性:云存儲實(shí)現對信息的分布式存儲,信息被切分為多個(gè)數據塊分散存儲在云中的節點(diǎn)中,實(shí)現了多副本備份機制,因此安全性要遠高于傳統的單一甚至帶有鏡像服務(wù)器的信息存儲方式。
訪(fǎng)問(wèn)的高效性:云中的控制節點(diǎn)通過(guò)“心跳檢測”不斷地監視存儲節點(diǎn)的狀態(tài),當發(fā)現存儲節點(diǎn)已經(jīng)失效時(shí),控制節點(diǎn)能夠將工作負載交給那些運行正常的存儲節點(diǎn)來(lái)完成。同時(shí),由于云中的數據是分布式的存儲,能夠很好地分擔存儲和訪(fǎng)問(wèn)的壓力,這些都使得云存儲具有很高訪(fǎng)問(wèn)的效率。
存儲成本低:原先的信息資源的存儲一般使用專(zhuān)業(yè)的存儲設備,價(jià)格不菲,使得資源存儲的成本也隨之提高。而云中的存儲設備都是廉價(jià)的商業(yè)機,跟單一的大容量專(zhuān)業(yè)存儲設備相比較,存儲容量更大,存儲成本更低。
管理便捷:云存儲能夠在軟件層做到自動(dòng)容錯而不依賴(lài)硬件本身的容錯,而且將信息資源存儲在云中,有利于對資源進(jìn)行統一的管理,提高資源的使用率。
另外,云存儲還具有超強的可擴展性、不受具體地理位置所限、基于商業(yè)組件、按照使用收費(如每G收15美分)、可跨不同應用等。所有這些充分體現了云存儲這種方式的優(yōu)越性。
2 基于HDFS的云存儲
2.1 HDFS的引入
目前各大公司都有自己的云存儲產(chǎn)品,如微軟公司的“Windows Live Sky Drive”網(wǎng)絡(luò )移動(dòng)硬盤(pán)服務(wù)、Google公司的“Google Stora ge”的云計算存儲服務(wù)、亞馬遜的Amazon webservices等。
在眾多的云存儲產(chǎn)品技術(shù)中,HDFS技術(shù)可以實(shí)施運行在普通的PC集群上,有效降低存儲成本,該技術(shù)是Google文件系統(GFS)的開(kāi)源實(shí)現,是分布式計算開(kāi)源框架Hadoop的底層實(shí)現,Hadoop是Google集群系統的一個(gè)開(kāi)源項目總稱(chēng),Google集群系統是使用低成本的成熟技術(shù)構建的一個(gè)穩定、高性能、高可用性、可擴展的系統。Hadoop平臺雖然是一項新興的技術(shù),但它的發(fā)展非常迅速,已開(kāi)始被應用在企業(yè)、高
校、科研機構等各個(gè)行業(yè)。文中重點(diǎn)研究HDFS云存儲在高校信息整合中是如何應用的。
2.2 HDFS的理論剖析
Hadoop文件系統(Hadoop Distributed File System,HDFS)雖然和現有的文件系統有相似之處,也是可以運行在普通的硬件之上的分布式文件系統,但是HDFS具有高容錯性,可以部署在低成本的硬件之上,可以以流的方式訪(fǎng)問(wèn)文件數據,從而高吞吐量地對應用程序進(jìn)行訪(fǎng)問(wèn),這些還是和一般的文件系統有區別的。圖1是HDFS體系結構圖。
研究HDFS的體系結構圖可以得知,名稱(chēng)節點(diǎn)上保存這控制數據節點(diǎn)信息的元數據??蛻?hù)端可以通過(guò)名稱(chēng)節點(diǎn)對元數據進(jìn)行操作,也可以直接對數據節點(diǎn)進(jìn)行讀寫(xiě)。HDFS體系結構是個(gè)主從結構,這個(gè)主從結構常由單個(gè)的名稱(chēng)節點(diǎn)和多個(gè)數據節點(diǎn)組成,名稱(chēng)節點(diǎn)負責管理文件命名空間和客戶(hù)端訪(fǎng)問(wèn)的主服務(wù)器,而數據節點(diǎn)則負責對存儲進(jìn)行管理,下面來(lái)剖析一下體系結構各部分的功能。
2.2.1 名稱(chēng)節點(diǎn)和數據節點(diǎn)的功能
名稱(chēng)節點(diǎn)的功能包括4個(gè)方面:一是管理元數據和文件塊:二是管理文件系統的命名空間,包括記錄文件系統元數據被修改的情況:三是監聽(tīng)客戶(hù)端和數據節點(diǎn)請求和處理這些請求??蛻?hù)端事件比較復雜,比如名字空間的創(chuàng )建與刪除,文件的創(chuàng )建、刪除和修改等,數據節點(diǎn)的事件包括文件塊信息變化、心跳響應等:四是心跳檢測。所謂心跳檢測,就是數據節點(diǎn)會(huì )定期將自己的負載情況通過(guò)心跳信息向名稱(chēng)節點(diǎn)匯報。
數據節點(diǎn)的功能包括3個(gè)方面:一是通過(guò)自身服務(wù)進(jìn)程與文件系統客戶(hù)端打交道,完成數據塊的讀寫(xiě);二是周期性的向名稱(chēng)節點(diǎn)發(fā)送信號,報告本節點(diǎn)的狀態(tài);三是執行數據的流水線(xiàn)復制。
2.2.2 元數據和數據交互
HDFS體系結構中有三種類(lèi)型的元數據保存在名稱(chēng)節點(diǎn)的內存中,分別是:文件(包含目錄)的名字空間、文件到文件塊的映射、文件塊的位置信息。這種數據結構對于數據訪(fǎng)問(wèn)的效率和安全性都有很大的幫助。
評論