如何為大數據部署下一代存儲基礎設施
與管理傳統的大型數據基礎設施相比,管理與大數據相關(guān)的拍字節級數據存儲是一種全新的方式。目前在線(xiàn)照片分享網(wǎng)站Shutterfly管理著(zhù)30拍字節的數據。Shutterfly在這里與我們分享了他們馴服“數據野獸”的經(jīng)驗。
本文引用地址:http://dyxdggzs.com/article/185828.htm目前,每個(gè)人都在談?wù)?a class="contentlabel" href="http://dyxdggzs.com/news/listbylabel/label/大數據">大數據分析方法和相關(guān)的商務(wù)智能成果。但是在公司能夠利用這些數據前,他們必須想辦法解決存儲問(wèn)題。管理拍字節級甚至更大規模的數據存儲與管理傳統大型數據集有著(zhù)本質(zhì)的區別。
Shutterfly為一家在線(xiàn)照片分享網(wǎng)站。他們并不限制用戶(hù)存儲照片的數量,并且允許用戶(hù)存儲原始分辨率的照片,用戶(hù)在存儲時(shí)可以不用降低照片的分辨率。Shutterfly還曾承諾永遠不會(huì )刪除任何照片。
Shutterfly 高級副總裁兼首席技術(shù)官Neil Day稱(chēng):“我們的照片存檔大小已經(jīng)超過(guò)了30拍字節。存儲池的增長(cháng)速度遠遠高于用戶(hù)群的增長(cháng)速度。在我們吸引到客戶(hù)后,他們做的第一件事就是向我們上傳大量照片。在他們喜歡上我們之后,他們做的第一件事就是再次上傳大量照片。”
為了有一個(gè)直觀(guān)的印象,大家可以想像一下,1拍字節等于100太字節,等于1百萬(wàn)吉字節。美國宇航局哈勃太空望遠鏡前20年的觀(guān)測數據存檔也僅為45太字節多一點(diǎn)。以128 kB/s速率壓縮的1太字節音頻數據可以存儲17000小時(shí)的音頻。
拍字節級基礎設施的特點(diǎn)
Day稱(chēng):“拍字節級基礎設施與傳統存儲設施完全不同。建立和維護它們非常困難。與傳統大型數據集的管理壓力相比,一個(gè)拍字節或多個(gè)拍字節基礎設施的管理壓力完全是天壤之別。它們之間的差異就如同在筆記本電腦上處理數據和在RAID陣列上處理數據一樣。”
Day在2009年進(jìn)入Shutterfly網(wǎng)站。當時(shí)存儲已經(jīng)成為了公司最大的開(kāi)銷(xiāo),并且這一開(kāi)銷(xiāo)仍然在飛速地增長(cháng)。這些開(kāi)銷(xiāo)的增長(cháng)速度并不是根據原始容量的增長(cháng)速度而增長(cháng),而是根據員工數量的增長(cháng)速度而增長(cháng)。
Day 稱(chēng):“存儲每增長(cháng)n個(gè)拍字節就意味著(zhù)我們需要增加一名存儲管理員,以及相應的物理和邏輯基礎設施。有了這些大型存儲,數據量不斷創(chuàng )下新高。實(shí)際管理這些大型存檔的人必須不斷的解決硬件故障問(wèn)題。每個(gè)人都想解決這一基本問(wèn)題,因為大家都清楚硬盤(pán)方面的任何一個(gè)故障都會(huì )導致服務(wù)中斷。那么你如何確保數據能夠被持續獲取,如何保證性能不會(huì )下降?”
擴展RAID是一個(gè)棘手的問(wèn)題
失效備援的標準解決方案是進(jìn)行復制,通常是以RAID陣列的形式進(jìn)行。但是如果規模龐大,那么RAID產(chǎn)生的問(wèn)題將比解決的問(wèn)題更多。在傳統的RAID數據存儲方案中,為了保證完整性和可用性,每個(gè)數據的拷貝都會(huì )被做成鏡像,存儲在不同的磁盤(pán)陣列上。不過(guò),這也意味著(zhù)每份被存儲和被做成鏡像的數據將導致存儲容量膨脹五倍。隨著(zhù)RAID陣列中的磁盤(pán)容量越來(lái)越大,將故障磁盤(pán)中的內容恢復到新磁盤(pán)上所需要的時(shí)間也越來(lái)越長(cháng)。
Day 稱(chēng):“實(shí)際上,我們在RAID上并沒(méi)有遇到操作問(wèn)題。我們遇到的問(wèn)題是,磁盤(pán)容量越來(lái)越大,如果磁盤(pán)組件出現故障,切換至冗余系統的時(shí)間將越來(lái)越長(cháng)。奇偶校驗與生成的數據集的大小是成正比的。目前我們已經(jīng)開(kāi)始在基礎設施中使用1太字節和2太字節的磁盤(pán),這導致切換到冗余系統的時(shí)間更長(cháng)。目前的發(fā)展趨勢并沒(méi)有朝著(zhù)正確的方向發(fā)展。”
可靠性和可用性對于Shutterfly來(lái)說(shuō)非常關(guān)鍵,這也是企業(yè)級存儲的需求。Day稱(chēng),快速增長(cháng)的存儲成本使得商品化服務(wù)越來(lái)越具有吸引力。在Day和他的團隊對一些能夠讓Shutterfly控制成本的潛在技術(shù)解決方案進(jìn)行投資的過(guò)程中,他們接觸到了一種名為糾刪碼的技術(shù)。這一技術(shù)引起了他們的興趣。
利用糾刪碼創(chuàng )建下一代存儲
Reed-Solomon糾刪碼最初是作為前身糾錯(FEC)代碼,用于在不可靠的信道中發(fā)送數據,例如深空探測任務(wù)中的數據傳輸。這一技術(shù)還被廣泛的應用在CD和DVD上,以處理灰塵和劃痕等光盤(pán)損傷問(wèn)題。目前幾家存儲廠(chǎng)商已經(jīng)開(kāi)始展開(kāi)合作,將糾刪碼整合到他們的解決方案中。通過(guò)糾刪碼,數據段能夠被分解為多個(gè)小塊,每一小塊數據本身都是沒(méi)用的。然后,這些數據塊被分散到不同的硬盤(pán)上或是服務(wù)器上。只需要部分數據塊,數據就能夠隨時(shí)被重新恢復,甚至當硬盤(pán)故障導致多個(gè)數據塊丟失后,數據仍然能夠被完整地拼湊起來(lái)。換句話(huà)說(shuō),你不再需要創(chuàng )建多份數據拷貝,單個(gè)實(shí)例就能夠保證數據的完整性和可用性。
總部位于芝加哥的Cleversaf公司是較早涉足糾刪碼解決方案的廠(chǎng)商之一。該公司還通過(guò)增加存儲單元信息研發(fā)出了分散碼技術(shù)。該技術(shù)允許用戶(hù)在地理位置上相互獨立的地方,如在多個(gè)數據中心上存儲數據塊、或是片段。
由于每個(gè)片斷在數學(xué)意義上都是無(wú)用的,這使得其具有私密性和安全性。與RAID需要多份拷貝不同,信息分散技術(shù)僅使用一個(gè)單個(gè)實(shí)例數據,并且為了確保數據的完整性和可用性只進(jìn)行了最低限制的擴展,因此公司可能節省90%的存儲成本。
Cleversafe 公司產(chǎn)品策略、營(yíng)銷(xiāo)和客戶(hù)解決方案副總裁Russ Kennedy稱(chēng):“在重新將數據塊拼湊在一起時(shí),你不必擁有每一個(gè)數據塊。所生成的全部數據塊的數量我們稱(chēng)之為廣度,恢復數據所需要的最低限度的數據塊,我們稱(chēng)之為閾值。這兩者之間的差異決定了數據的可靠性。當你同時(shí)丟失了節點(diǎn)和硬盤(pán)后,你仍然能夠恢復原始的數據。在RAID中你能夠獲得的最高的可靠性是雙奇偶校驗,你可以丟失兩塊硬盤(pán)。但是在我們的解決方案中,你可以丟失最多六塊硬盤(pán)。”
糾刪碼是一項以軟件為基礎的技術(shù),這意味著(zhù)該技術(shù)可以使用商用硬件,進(jìn)一步壓縮擴展成本。
創(chuàng )建下一代存儲基礎設施
Day稱(chēng):“在找到了合適的技術(shù)后,我們將關(guān)注提供這種技術(shù)解決方案的廠(chǎng)商。同時(shí),我們還關(guān)注如何創(chuàng )建它們。我們認為,如果能夠找到一家能夠滿(mǎn)足我們需求的公司,并且他們的系統已經(jīng)經(jīng)過(guò)了實(shí)踐檢驗,那么對于我們來(lái)說(shuō)是再好不過(guò)的了。”
Shutterfly讓四家廠(chǎng)商為他們評估和創(chuàng )建其數據中心所需要的存儲設備原型。Day稱(chēng),他們關(guān)注的重點(diǎn)是性能、可用性、容錯性和可管理性。
他解釋稱(chēng):“我們有專(zhuān)門(mén)的人員管理照片存檔。我們在2010年最大的一個(gè)顧慮是照片存檔越來(lái)越大。隨著(zhù)存檔的日益增長(cháng),我們不得不增加管理人員的數量。這讓我們感到很頭疼。”
Day稱(chēng),Cleversafe的出現讓Shutterfly遇到了救星,該公司也希望與Shutterfly合作,為Shutterfly量身訂做解決方案。他們對這一新概念進(jìn)行了仔細驗證,包括在Shutterfly實(shí)驗室中進(jìn)行上傳和性能測試。在Shutterfly對運行和性能感到滿(mǎn)意后,Cleversafe推出了一款平行存儲基礎設施,同時(shí)公司將Shutterfly所有流量的一份拷貝引導至這一基礎設施上。
Day 稱(chēng):“每一份上傳的照片都被同時(shí)存儲在我們的老式基礎設施上和Cleversafe的基礎設施上。當時(shí)我們運行了六個(gè)月的時(shí)間,包括節假日。”節假日對于Shutterfly來(lái)說(shuō)是使用高峰期,許多用戶(hù)都會(huì )創(chuàng )建相冊,并上傳大量的照片。
在2011年,Shutterfly將Cleversafe的解決方案全面應用于照片存檔中,并將其作為主要的照片存儲倉庫。
糾刪碼存儲的總擁有成本
Day 稱(chēng):“總體上,糾刪碼存儲是一個(gè)軟件解決方案,允許我們部署費效比更好的硬件。對于我們來(lái)說(shuō),它改變了總擁有成本。我們與硬件廠(chǎng)商打交道時(shí)擁有了更高的靈活性,我們可以確保在硬盤(pán)和基礎設施方面獲得最優(yōu)惠的價(jià)格。”
Day表示存儲池的管理也得到了極大的簡(jiǎn)化。他稱(chēng):“現在我們基本上只需要增加存儲空間即可,隨后它們會(huì )自動(dòng)的添加到我們所指定的存儲池中。以前,只有我們增加了額外的存儲,那么我們就不得不進(jìn)折騰一翻。”
現在,如果一塊硬盤(pán)發(fā)生故障或是掉線(xiàn)了,Shutterfly的存儲基礎設施能夠將其標記為不可用狀態(tài),并引導數據繞開(kāi)這塊硬盤(pán),同時(shí)迅速恢復這塊硬盤(pán)上的數據。以往當一塊硬盤(pán)或是多塊硬盤(pán)發(fā)生了故障,團隊會(huì )召集所有的人一起排除故障,現在他們的團隊只需注明故障,在計劃維護方案中替換掉受影響的基礎設施即可。
他稱(chēng):“這樣一來(lái),我們不必再像以前一樣盡可能快的增加人手了?,F在,我們的人手仍然在增長(cháng),但是速度比以前慢多了。日常維護工作的工作量已經(jīng)下降了不少。管理員可以在他們感興趣的前瞻性項目中花上更多的時(shí)間。他們的工作重點(diǎn)已經(jīng)轉移至我們以往稱(chēng)為附加工作的工作上去了。在增加員工人數和工作內容方面,這一技術(shù)都產(chǎn)生了不錯的效果。”
數據存儲將讓公司具備敏銳的洞察力
盡管Shutterfly是一家需要處理海量數據的互聯(lián)網(wǎng)公司,但是如今大多數公司也都不得不面對大量數據,全球的公司正在存儲越來(lái)越多的數據。
他稱(chēng):“我們的存檔規模在五年內將變得非常龐大,與比平均水平相比,要大幾個(gè)數量級。我們希望在四年或五年后能夠看到大量應用和技術(shù)投入市場(chǎng),讓處理超大型數據集成為可能。讓人感到興奮的是,它們將允許公司觀(guān)察細微的數據,從而使得公司具有更加敏銳的業(yè)務(wù)洞察力。”
Day稱(chēng):“這是一個(gè)發(fā)展趨勢。目前我們還僅僅處于初級階段。隨著(zhù)業(yè)務(wù)的互聯(lián)性、移動(dòng)性以及與客戶(hù)實(shí)時(shí)互動(dòng)程度的不斷提升,數據量將越來(lái)越大。對這些數據的分析可能將會(huì )對業(yè)務(wù)洞察力產(chǎn)生深遠影響。但是這些工作的首要條件是要能夠可靠地存儲這些海量數據。”
更多資訊請關(guān)注:21ic模擬頻道
評論