<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > 揭秘:RCFile高效存儲結構

揭秘:RCFile高效存儲結構

作者：時(shí)間：2011-05-09 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

　　數據格式

　　RCFile在HDFS分布式文件系統之上設計并實(shí)現，如圖4所示，RCFile按照下面的數據格式來(lái)存儲一張表。

　　RCFile基于HDFS架構，表格占用多個(gè)HDFS塊。

　　每個(gè)HDFS塊中，RCFile以行組為基本單位來(lái)組織記錄。也就是說(shuō)，存儲在一個(gè)HDFS塊中的所有記錄被劃分為多個(gè)行組。對于一張表，所有行組大小都相同。一個(gè)HDFS塊會(huì )有一個(gè)或多個(gè)行組。

　　一個(gè)行組包括三個(gè)部分。第一部分是行組頭部的同步標識，主要用于分隔HDFS塊中的兩個(gè)連續行組;第二部分是行組的元數據頭部，用于存儲行組單元的信息，包括行組中的記錄數、每個(gè)列的字節數、列中每個(gè)域的字節數;第三部分是表格數據段，即實(shí)際的列存儲數據。在該部分中，同一列的所有域順序存儲。從圖4可以看出，首先存儲了列A的所有域，然后存儲列B的所有域等。壓縮方式

　　RCFile的每個(gè)行組中，元數據頭部和表格數據段分別進(jìn)行壓縮。

　　對于所有元數據頭部，RCFile使用RLE(Run Length Encoding)算法來(lái)壓縮數據。由于同一列中所有域的長(cháng)度值都順序存儲在該部分，RLE算法能夠找到重復值的長(cháng)序列，尤其對于固定的域長(cháng)度。

　　表格數據段不會(huì )作為整個(gè)單元來(lái)壓縮;相反每個(gè)列被獨立壓縮，使用Gzip壓縮算法。RCFile使用重量級的Gzip壓縮算法，是為了獲得較好的壓縮比，而不使用RLE算法的原因在于此時(shí)列數據非排序。此外，由于Lazy壓縮策略，當處理一個(gè)行組時(shí)，RCFile不需要解壓所有列。因此，相對較高的Gzip解壓開(kāi)銷(xiāo)可以減少。

　　盡管RCFile對表格數據的所有列使用同樣的壓縮算法，不過(guò)如果使用不同的算法來(lái)壓縮不同列或許效果會(huì )更好。RCFile將來(lái)的工作之一可能就是根據每列的數據類(lèi)型和數據分布來(lái)自適應選擇最好的壓縮算法。

　　數據追加

　　RCFile不支持任意方式的數據寫(xiě)操作，僅提供一種追加接口，這是因為底層的HDFS當前僅僅支持數據追加寫(xiě)文件尾部。數據追加方法描述如下。

　　RCFile為每列創(chuàng )建并維護一個(gè)內存column holder，當記錄追加時(shí)，所有域被分發(fā)，每個(gè)域追加到其對應的column holder。此外，RCFile在元數據頭部中記錄每個(gè)域對應的元數據。

　　RCFile提供兩個(gè)參數來(lái)控制在刷寫(xiě)到磁盤(pán)之前，內存中緩存多少個(gè)記錄。一個(gè)參數是記錄數的限制，另一個(gè)是內存緩存的大小限制。

　　RCFile首先壓縮元數據頭部并寫(xiě)到磁盤(pán)，然后分別壓縮每個(gè)column holder，并將壓縮后的column holder刷寫(xiě)到底層文件系統中的一個(gè)行組中。

　　數據讀取和Lazy解壓

　　在MapReduce框架中，mapper將順序處理HDFS塊中的每個(gè)行組。當處理一個(gè)行組時(shí)，RCFile無(wú)需全部讀取行組的全部?jì)热莸絻却妗?p>　　相反，它僅僅讀元數據頭部和給定查詢(xún)需要的列。因此，它可以跳過(guò)不必要的列以獲得列存儲的I/O優(yōu)勢。例如，表tbl(c1, c2, c3, c4)有4個(gè)列，做一次查詢(xún)“SELECT c1 FROM tbl WHERE c4 = 1”，對每個(gè)行組，RCFile僅僅讀取c1和c4列的內容。在元數據頭部和需要的列數據加載到內存中后，它們需要解壓。元數據頭部總會(huì )解壓并在內存中維護直到RCFile處理下一個(gè)行組。然而，RCFile不會(huì )解壓所有加載的列，相反，它使用一種Lazy解壓技術(shù)。

　　Lazy解壓意味著(zhù)列將不會(huì )在內存解壓，直到RCFile決定列中數據真正對查詢(xún)執行有用。由于查詢(xún)使用各種WHERE條件，Lazy解壓非常有用。如果一個(gè)WHERE條件不能被行組中的所有記錄滿(mǎn)足，那么RCFile將不會(huì )解壓WHERE條件中不滿(mǎn)足的列。例如，在上述查詢(xún)中，所有行組中的列c4都解壓了。然而，對于一個(gè)行組，如果列c4中沒(méi)有值為1的域，那么就無(wú)需解壓列c1。

　　行組大小

　　I/O性能是RCFile關(guān)注的重點(diǎn)，因此RCFile需要行組夠大并且大小可變。行組大小和下面幾個(gè)因素相關(guān)。

　　行組大的話(huà)，數據壓縮效率會(huì )比行組小時(shí)更有效。根據對Facebook日常應用的觀(guān)察，當行組大小達到一個(gè)閾值后，增加行組大小并不能進(jìn)一步增加Gzip算法下的壓縮比。

　　行組變大能夠提升數據壓縮效率并減少存儲量。因此，如果對縮減存儲空間方面有強烈需求，則不建議選擇使用小行組。需要注意的是，當行組的大小超過(guò)4MB，數據的壓縮比將趨于一致。

　　盡管行組變大有助于減少表格的存儲規模，但是可能會(huì )損害數據的讀性能，因為這樣減少了Lazy解壓帶來(lái)的性能提升。而且行組變大會(huì )占用更多的內存，這會(huì )影響并發(fā)執行的其他MapReduce作業(yè)?？紤]到存儲空間和查詢(xún)效率兩個(gè)方面，Facebook選擇4MB作為默認的行組大小，當然也允許用戶(hù)自行選擇參數進(jìn)行配置。

　　小結

　　本文簡(jiǎn)單介紹了RCFile存儲結構，其廣泛應用于Facebook公司的數據分析系統Hive中。首先，RCFile具備相當于行存儲的數據加載速度和負載適應能力;其次，RCFile的讀優(yōu)化可以在掃描表格時(shí)避免不必要的列讀取，測試顯示在多數情況下，它比其他結構擁有更好的性能;再次，RCFile使用列維度的壓縮，因此能夠有效提升存儲空間利用率。

　　為了提高存儲空間利用率，Facebook各產(chǎn)品線(xiàn)應用產(chǎn)生的數據從2010年起均采用RCFile結構存儲，按行存儲(SequenceFile/TextFile)結構保存的數據集也轉存為RCFile格式。此外，Yahoo公司也在Pig數據分析系統中集成了RCFile，RCFile正在用于另一個(gè)基于Hadoop的數據管理系統Howl(http://wiki.apache.org/pig/Howl)。而且，根據Hive開(kāi)發(fā)社區的交流，RCFile也成功整合加入其他基于MapReduce的數據分析平臺。有理由相信，作為數據存儲標準的RCFile，將繼續在MapReduce環(huán)境下的大規模數據分析中扮演重要角色。

上一頁(yè) 1 2 3 下一頁(yè)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞：結構存儲高效 :RCFile 揭秘

評論

相關(guān)推薦

嵌入式大會(huì )提交論文大揭秘

jackwang | 2002-08-07

MIC79050-4.2BS的內部結構框圖

設計方案 MIC79050-4.2BS 內部結構框圖 | 2009-07-06

DDR 的 PCB布局及走線(xiàn)要求

網(wǎng)絡(luò )與存儲 DDR PCB設計存儲 | 2025-05-06

主板維修手冊

資源下載主板結構故障維修手冊 | 2007-02-16

可控硅元件的結構

資源下載可控硅元件 SRC 結構 | 2007-02-16

連接性十字路口：對V2X存儲的需求飆升

汽車(chē)電子車(chē)聯(lián)網(wǎng) V2X 連接性存儲 | 2025-03-25

可擴展并行計算技術(shù)、結構與編程

資源下載黃鎧可擴展并行計算結構編程 | 2007-03-23

可控硅知識的問(wèn)與答

資源下載可控硅晶閘管結構特性 | 2007-02-16

用MAX632組成的高效升壓穩壓電源

設計方案 MAX632 組成高效升壓穩壓電源 | 2009-07-06

服務(wù)器是由哪些硬件構成的？附VISIO形狀圖/HP/HPE 服務(wù)器/存儲！

網(wǎng)絡(luò )與存儲服務(wù)器結構 | 2025-04-30

長(cháng)江存儲首款PCIe 5.0企業(yè)級SSD PE511：首次32TB、性能提升100％

網(wǎng)絡(luò )與存儲長(cháng)江存儲 PCIe5.0 SSD 存儲 | 2025-03-13

[推薦]51 flash文件系統DIY(5)___FAT揭秘

seasoblue | 2002-10-22

PLD/FPGA 結構與原理初步

hpnet | 2002-07-10

DSP總體介紹

資源下載 DSP 特點(diǎn) 結構開(kāi)發(fā)環(huán)境芯片選擇 | 2007-02-16

[推薦]51 flash文件系統DIY(4)___FAT揭秘

seasoblue | 2002-10-22

閃迪創(chuàng )作者系列重磅上市，創(chuàng )新存儲解決方案助力提升內容創(chuàng )作體驗

網(wǎng)絡(luò )與存儲閃迪存儲 | 2025-04-18

Embedded World 2025：邊緣 AI、存儲革新與 1X nm 工藝重塑嵌入式未來(lái)

嵌入式系統 Embedded World 2025 邊緣AI 存儲嵌入式 MCU | 2025-03-18

AI帶動(dòng)存儲需求擴大：希捷Q3營(yíng)收猛增30%！

網(wǎng)絡(luò )與存儲 AI 存儲 | 2025-04-30

自制大功率高效逆變模塊

設計方案自制大功率高效逆變模塊 | 2009-07-06

經(jīng)典芯片，存儲領(lǐng)域的可靠選擇，智微科技JMS576詳解與方案推薦

網(wǎng)絡(luò )與存儲智微科技存儲 | 2025-04-17

用高效開(kāi)關(guān)控制器LT1148-5制作的2A降壓直流變換電源

設計方案高效開(kāi)關(guān) 控制器 LT1148-5 制作降壓直流變換 | 2009-07-06

完爆SSD/HDD！新型玻璃硬盤(pán)壽命可達5000年：放入鹽水中煮沸、烤箱烘烤完好無(wú)損

網(wǎng)絡(luò )與存儲存儲硬盤(pán) SSD HDD | 2025-05-06

瀾起科技Q1利潤翻倍！DDR5市占全球第一

網(wǎng)絡(luò )與存儲瀾起科技 DDR5 存儲 | 2025-04-25

高效應急燈電源電路

設計方案高效應急燈電源電路 | 2009-07-06

[推薦]51 flash文件系統DIY(6)___FAT揭秘

seasoblue | 2002-10-22

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>