云存儲技術(shù)及其應用
近年來(lái),隨著(zhù)云計算[1-2]和軟件即服務(wù)(SaaS)[3-5]的興起,云存儲成為信息存儲領(lǐng)域的一個(gè)研究熱點(diǎn)。與傳統的存儲設備相比,云存儲不僅僅是一個(gè)硬件,而是一個(gè)網(wǎng)絡(luò )設備、存儲設備、服務(wù)器、應用軟件、公用訪(fǎng)問(wèn)接口、接入網(wǎng)和客戶(hù)端程序等多個(gè)部分組成的系統[6]。
云存儲提供的是存儲服務(wù),存儲服務(wù)通過(guò)網(wǎng)絡(luò )將本地數據存放在存儲服務(wù)提供商(SSP)提供的在線(xiàn)存儲空間。需要存儲服務(wù)的用戶(hù)不再需要建立自己的數據中心,只需向SSP申請存儲服務(wù),從而避免了存儲平臺的重復建設,節約了昂貴的軟硬件基礎設施投資。
云存儲這個(gè)概念一經(jīng)提出,就得到了眾多廠(chǎng)商的支持和關(guān)注。Amazon公司推出彈性塊存儲(EBS)技術(shù)支持數據持久性存儲;Google推出在線(xiàn)存儲服務(wù)GDrive;內容分發(fā)網(wǎng)絡(luò )服務(wù)提供商CDNetworks和云存儲平臺服務(wù)商Nirvanix結成戰略伙伴關(guān)系,提供云存儲和內容傳送服務(wù)集成平臺;EMC公司收購Berkeley Data Systems,取得該公司的Mozy在線(xiàn)服務(wù)軟件,并開(kāi)展SaaS業(yè)務(wù);Microsoft公司推出Windows Azure,并在美國各地建立龐大的數據中心;IBM也將云計算標準作為全球備份中心擴展方案的一部分。
2009年12月,因特網(wǎng)數據中心(IDC)發(fā)布的2010年IT和電信行業(yè)十大預測中指出:云計算將擴張并走向成熟,會(huì )誕生許多新的公共云熱點(diǎn)、私有云服務(wù)、云應用以及將公共云與私有云聯(lián)系起來(lái)的服務(wù)。
1 云存儲技術(shù)
云存儲系統與傳統存儲系統相比,具有如下不同:第一,從功能需求來(lái)看,云存儲系統面向多種類(lèi)型的網(wǎng)絡(luò )在線(xiàn)存儲服務(wù),而傳統存儲系統則面向如高性能計算、事務(wù)處理等應用;第二,從性能需求來(lái)看,云存儲服務(wù)首先需要考慮的是數據的安全、可靠、效率等指標,而且由于用戶(hù)規模大、服務(wù)范圍廣、網(wǎng)絡(luò )環(huán)境復雜多變等特點(diǎn),實(shí)現高質(zhì)量的云存儲服務(wù)必將面臨更大的技術(shù)挑戰;第三,從數據管理來(lái)看,云存儲系統不僅要提供類(lèi)似于POSIX的傳統文件訪(fǎng)問(wèn),還要能夠支持海量數據管理并提供公共服務(wù)支撐功能,以方便云存儲系統后臺數據的維護。
基于上述特點(diǎn),云存儲平臺整體架構可劃分為4個(gè)層次,自底向上依次是:數據存儲層、數據管理層、數據服務(wù)層以及用戶(hù)訪(fǎng)問(wèn)層。云存儲平臺整體架構如圖1所示。
(1)數據存儲層
云存儲系統對外提供多種不同的存儲服務(wù),各種服務(wù)的數據統一存放在云存儲系統中,形成一個(gè)海量數據池。從大多數網(wǎng)絡(luò )服務(wù)后臺數據組織方式來(lái)看,傳統基于單服務(wù)器的數據組織難以滿(mǎn)足廣域網(wǎng)多用戶(hù)條件下的吞吐性能和存儲容量需求[7];基于P2P架構的數據組織需要龐大的節點(diǎn)數量和復雜編碼算法保證數據可靠性[8]。相比而言,基于多存儲服務(wù)器的數據組織方法能夠更好滿(mǎn)足在線(xiàn)存儲服務(wù)的應用需求[9],在用戶(hù)規模較大時(shí),構建分布式數據中心能夠為不同地理區域的用戶(hù)提供更好的服務(wù)質(zhì)量[10]。
云存儲的數據存儲層將不同類(lèi)型的存儲設備互連起來(lái),實(shí)現海量數據的統一管理,同時(shí)實(shí)現對存儲設備的集中管理、狀態(tài)監控以及容量的動(dòng)態(tài)擴展,實(shí)質(zhì)是一種面向服務(wù)的分布式存儲系統。
(2)數據管理層
云存儲系統架構中的數據管理層為上層提供不同服務(wù)間公共管理的統一視圖。通過(guò)設計統一的用戶(hù)管理、安全管理、副本管理及策略管理等公共數據管理功能,將底層存儲及上層應用無(wú)縫銜接起來(lái),實(shí)現多存儲設備之間的協(xié)同工作,以更好的性能對外提供多種服務(wù)。
(3)數據服務(wù)層
數據服務(wù)層是云存儲平臺中可以靈活擴展的、直接面向用戶(hù)的部分。根據用戶(hù)需求,可以開(kāi)發(fā)出不同的應用接口,提供相應的服務(wù)。比如數據存儲服務(wù)、空間租賃服務(wù)、公共資源服務(wù)、多用戶(hù)數據共享服務(wù)、數據備份服務(wù)等。
(4)用戶(hù)訪(fǎng)問(wèn)層
通過(guò)用戶(hù)訪(fǎng)問(wèn)層,任何一個(gè)授權用戶(hù)都可以在任何地方,使用一臺聯(lián)網(wǎng)的終端設備,按照標準的公用應用接口來(lái)登錄云存儲平臺,享受云存儲服務(wù)。
與傳統的購買(mǎi)存儲設備和部署存儲軟件相比,云存儲方式存在以下優(yōu)點(diǎn):
(1)成本低、見(jiàn)效快
傳統的購買(mǎi)存儲設備或軟件定制方式下,企業(yè)根據信息化管理的需求,一次性投入大量資金購置硬件設備、搭建平臺。軟件開(kāi)發(fā)則經(jīng)過(guò)漫長(cháng)的可行性分析、需求調研、軟件設計、編碼、測試這一過(guò)程。往往在軟件開(kāi)發(fā)完成以后,業(yè)務(wù)需求發(fā)生變化,不得不對軟件進(jìn)行返工,不僅影響質(zhì)量,提高成本,更是延誤了企業(yè)信息化進(jìn)程,同時(shí)造成了企業(yè)之間的低水平重復投資以及企業(yè)內部周期性、高成本的技術(shù)升級。在云存儲方式下,企業(yè)除了配置必要的終端設備接收存儲服務(wù)外,不需要投入額外的資金來(lái)搭建平臺。企業(yè)只需按用戶(hù)數分期租用服務(wù),規避了一次性投資的風(fēng)險,降低了使用成本,而且對于選定的服務(wù),可以立即投入使用,既方便又快捷。
(2)易于管理
傳統方式下,企業(yè)需要配備專(zhuān)業(yè)的IT人員進(jìn)行系統的維護,由此帶來(lái)技術(shù)和資金成本。云存儲模式下,維護工作以及系統的更新升級都由云存儲服務(wù)提供商完成,企業(yè)能夠以最低的成本享受到最新最專(zhuān)業(yè)的服務(wù)。
(3)方式靈活
傳統的購買(mǎi)和定制模式下,一旦完成資金的一次性投入,系統無(wú)法在后續使用中動(dòng)態(tài)調整。隨著(zhù)設備的更新?lián)Q代,落后的硬件平臺難以處置;隨著(zhù)業(yè)務(wù)需求的不斷變化,軟件需要不斷地更新升級甚至重構來(lái)與之相適應,導致維護成本高昂,很容易發(fā)展到不可控的程度。而云存儲方式一般按照客戶(hù)數、使用時(shí)間、服務(wù)項目進(jìn)行收費。企業(yè)可以根據業(yè)務(wù)需求變化、人員增減、資金承受能力,隨時(shí)調整其租用服務(wù)方式,真正做到“按需使用”。
2 云備份應用
云存儲可以支持多種應用方式,如云備份、云數據共享、云資源服務(wù)等,也可以提供標準化的接口給其他網(wǎng)絡(luò )服務(wù)使用。下面以我們自行研制的B-Cloud云備份為例,簡(jiǎn)單介紹云存儲應用的具體技術(shù)細節。B-Cloud的部署結構如圖2所示。云備份系統包括3個(gè)層次的備份云:
最上層為廣域云,也稱(chēng)公共云,覆蓋范圍為所有備份客戶(hù)可以通過(guò)廣域網(wǎng)訪(fǎng)問(wèn)的區域。廣域云的服務(wù)器包括廣域管理器、廣域云存儲節點(diǎn)等。
中間層為區域云,通常按照地理區域(如省、地區等)來(lái)劃分。相應地,服務(wù)節點(diǎn)包括區域云管理器、區域云存儲節點(diǎn)。
最下層為本地云,也稱(chēng)私有云。本地云既可以按小的地理區域劃分,也可以按照特定實(shí)體劃分,如企業(yè)、組織或校園。本地云可運行于廣域網(wǎng)或局域網(wǎng),用戶(hù)限于區域內的人員,服務(wù)節點(diǎn)包括本地管理器、私有云存儲節點(diǎn)。
區域云、私有云同廣域云一樣,具有多個(gè)本地的存儲節點(diǎn),共同服務(wù)于多個(gè)備份客戶(hù)端。
B-Cloud云備份系統的拓撲結構可描述為:以廣域云為根節點(diǎn),區域云和本地云為分支節點(diǎn),構成的一顆備份云的樹(shù)狀結構。每個(gè)節點(diǎn)都具有自己的備份管理器與存儲節點(diǎn),分別完成本區域內的備份任務(wù)調度與備份數據的存取。物理相連的廣域云、區域云、本地云之間,相鄰兩層的關(guān)系為父子關(guān)系,其中子節點(diǎn)可看作是父節點(diǎn)的一個(gè)特殊客戶(hù)。該結構具有良好的擴展性,當前定義了3個(gè)層次,隨著(zhù)用戶(hù)規模的增長(cháng)、服務(wù)區域的拓展,可根據需要對某級節點(diǎn)進(jìn)行裂變,增加新的節點(diǎn)層次。
新用戶(hù)注冊時(shí),首先訪(fǎng)問(wèn)系統的注冊服務(wù)器(負責全局用戶(hù)管理)。由注冊服務(wù)器按照預先定義的分配策略,匹配用戶(hù)的特征信息,如客戶(hù)端IP地址所屬的網(wǎng)段或區域、Email地址所屬的組織、用戶(hù)所屬的地理區域等,將用戶(hù)分配到相應的備份云節點(diǎn)。由備份云的管理服務(wù)器進(jìn)行用戶(hù)信息的維護。完成注冊后,備份客戶(hù)端每次請求服務(wù)時(shí),只需登錄系統,在指定的備份云節點(diǎn)下,與相應的備份管理器、存儲節點(diǎn)進(jìn)行三方通信,接受備份及恢復服務(wù)。
按照訪(fǎng)問(wèn)就近原則,地理位置越近,實(shí)體之間數據傳輸的效率越高、成本越低。通過(guò)這種分層拓撲結構,使得備份服務(wù)系統中的多調度服務(wù)器和多存儲服務(wù)器建立一種有序的層次關(guān)系,能夠更好地服務(wù)于不同區域的多備份客戶(hù)端。
云備份服務(wù)的應用特點(diǎn)決定了應用需求,需求驅動(dòng)了云備份需要研究的3項關(guān)鍵技術(shù)的發(fā)展。B-Cloud云備份系統的研究涵蓋了服務(wù)架構的幾個(gè)方面,他們相互之間的關(guān)系如圖3所示。
云備份服務(wù)與傳統的備份軟件相比,不同點(diǎn)主要體現在3個(gè)方面:
(1)用戶(hù)規模
備份軟件通常應用于局域網(wǎng)或目標群體固定的廣域網(wǎng)范圍內。由于用戶(hù)規模較小,出于易于部署維護、成本低廉等考慮,通常存儲服務(wù)器較少,用戶(hù)對存儲服務(wù)器的訪(fǎng)問(wèn)路徑是固定的,無(wú)須根據各種影響因素動(dòng)態(tài)指定或調整。
云備份服務(wù)的對象則是廣域網(wǎng)范圍內的大規模用戶(hù),而且隨著(zhù)服務(wù)推出時(shí)間的延長(cháng),用戶(hù)數量會(huì )持續增長(cháng)。為此,系統必須設置多臺存儲服務(wù)器,以滿(mǎn)足系統擴展性方面的要求。在此基礎上,系統必須能夠很好地響應大量用戶(hù)的并發(fā)訪(fǎng)問(wèn),并通過(guò)高效的并行調度策略來(lái)為用戶(hù)指定合適的目標存儲服務(wù)器,使得存儲服務(wù)器總體負載均衡,且達到較高的存儲利用率。同時(shí),該過(guò)程必須對用戶(hù)完全透明。
(2)數據量
云備份服務(wù)與備份軟件在用戶(hù)規模上的區別將直接導致兩者所處理的數據量區別極大。廣域網(wǎng)范圍內的大規模用戶(hù)所產(chǎn)生的備份數據很容易達到TB甚至PB級,如何通過(guò)研究數據組織方法和壓縮算法,來(lái)提高海量數據的傳輸和存儲效率,進(jìn)而提高系統性能、降低硬件成本、實(shí)現存儲節能,具有重要的現實(shí)意義。
(3)服務(wù)安全
云備份服務(wù)要滿(mǎn)足多方面的需求:既要兼容客戶(hù)端的異構數據平臺,又要滿(mǎn)足數據在塊級、文件級及應用級的完整性;既要適應于復雜多變的廣域網(wǎng)環(huán)境,又要保證數據的安全性。
要統籌兼顧的問(wèn)題越多,意味著(zhù)存儲系統的功能越復雜,也就越容易產(chǎn)生各種異常。另一方面,云備份服務(wù)系統比一般的備份軟件對可信性的要求更高。
當前備份服務(wù)的概念在中國剛剛興起,阻礙其發(fā)展的一個(gè)重要原因是用戶(hù)的消費習慣。人們在潛意識里總是感覺(jué)將關(guān)鍵數據備份在可視范圍內的身邊設備上比較安全。而一旦要求用戶(hù)把私密數據備份到異地的數據中心,則會(huì )擔心數據安全性能否得到充分保障??陀^(guān)上云備份服務(wù)容易產(chǎn)生各類(lèi)異常,主觀(guān)上用戶(hù)對備份服務(wù)更高的安全需求,都造成了對云備份服務(wù)的安全性研究刻不容緩。
以上討論的云備份的應用特點(diǎn)對應了如下云備份研究的幾個(gè)主要方面:
(1)命令流
B-Cloud包括三大部分:備份客戶(hù)端、管理器和存儲服務(wù)器。管理器是整個(gè)服務(wù)系統的管理中心,負責任務(wù)調度、作業(yè)管理及服務(wù)過(guò)程中的狀態(tài)監控。備份或恢復操作開(kāi)始之前,從備份客戶(hù)端提出服務(wù)請求,到系統開(kāi)始提供服務(wù)這段時(shí)間,3個(gè)部分除了執行雙向安全認證之外,還有一項很重要的任務(wù)就是由管理器完成作業(yè)調度,建立備份客戶(hù)端與存儲服務(wù)器之間的聯(lián)系。
(2)數據流
備份或恢復數據流的傳輸在備份客戶(hù)端與存儲服務(wù)器之間直接完成,不需要經(jīng)過(guò)管理器。這種數據不經(jīng)過(guò)中間環(huán)節直接在數據源和目的地之間的傳輸,不僅提高了效率,而且對系統整體負載平衡起到了較好的效果。備份數據組織與壓縮是數據傳輸與存儲的關(guān)鍵所在。
(3)服務(wù)的安全性
云備份的安全涉及到服務(wù)平臺的安全性、各個(gè)模塊的安全性及模塊之間協(xié)調和通信的安全性。這個(gè)問(wèn)題需要專(zhuān)門(mén)的論述才能闡述清楚,本文不做過(guò)多討論。
3 結束語(yǔ)
本文介紹了云存儲技術(shù),并以云備份為例,討論了云存儲應用實(shí)現當中需要注意的幾個(gè)問(wèn)題。以服務(wù)的方式滿(mǎn)足應用需求,已經(jīng)成為信息領(lǐng)域技術(shù)發(fā)展的一種趨勢,但如何實(shí)現云存儲,并使其廣泛應用,還需要更多的研究和努力。
p2p機相關(guān)文章:p2p原理
評論