<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > Cloudera Data Platform引入Apache Iceberg的五大原因

Cloudera Data Platform引入Apache Iceberg的五大原因

作者: 時(shí)間:2022-09-16 來(lái)源:電子產(chǎn)品世界 收藏

近期,Cloudera宣布將Apache Iceberg集成到其云生態(tài)系統中,Iceberg的優(yōu)勢得以融入正在轉向公有云和采用湖倉等融合架構的企業(yè)之中??梢哉f(shuō),集成了Iceberg的Cloudera CDP將強有力地幫助企業(yè)構建新一代數據架構,賦予企業(yè)更多的前瞻性和附加優(yōu)勢。

本文引用地址:http://dyxdggzs.com/article/202209/438278.htm

Apache Iceberg是一種高性能的開(kāi)放表格式。它誕生于云端,可擴展到PB級并且獨立于底層存儲層和引擎存儲層。作為一種真正的開(kāi)放表格式,Apache Iceberg符合Cloudera Data Platform(CDP)的愿景。

原因一:多功能分析助力實(shí)現數據集共享

Apache Iceberg實(shí)現了不同流式傳輸和處理引擎之間的無(wú)縫集成,同時(shí)保持了它們之間的數據完整性。多個(gè)引擎可以同時(shí)更改表,即便是部分寫(xiě)入也不會(huì )出現正確性問(wèn)題,而且也不需要昂貴的讀取鎖定。因此,降低了使用不同的連接器、維護不善的API、以及采取其他臨時(shí)解決方案處理數據集的必要性。

Iceberg采用開(kāi)放、兼容所有引擎的設計,實(shí)現了數據集的共享。Cloudera擴展了對Hive和Impala的支持,實(shí)現了從大規模數據工程工作負載和流處理,到智能大數據分析平臺(Fast BI)和查詢(xún)以及機器學(xué)習的多功能分析數據架構愿景。

Iceberg的多功能還意味著(zhù)Cloudera數據平臺就此擁有了打破數據孤島的集成端到端數據管道,并將分析整合成一個(gè)連貫的生命周期,在每一個(gè)階段都可以提取商業(yè)價(jià)值。用戶(hù)將能夠借助所需工具并充分利用其對工作負載所作出的特定優(yōu)化。例如Jupyter筆記本可以使用Spark或Python框架直接訪(fǎng)問(wèn)Iceberg表來(lái)建立預測模型,同時(shí)通過(guò)NiFi流獲取新數據,而SQL分析師則可以利用數據可視化監控收入目標。而作為一個(gè)完全開(kāi)源的項目,這意味著(zhù)將來(lái)會(huì )有更多的引擎和工具得到支持。

原因二:開(kāi)放文件格式提升數據存用靈活度

作為一種表格式,Iceberg 支持一些最常用的開(kāi)源文件格式,比如Avro、Parquet 和 ORC。這些都是眾所周知且發(fā)展成熟的大數據文件格式,它們不僅被開(kāi)源社區所使用,同時(shí)也被嵌入到第三方工具中。開(kāi)放格式的價(jià)值在于靈活性和可移植性。用戶(hù)可以在不受底層存儲束縛的情況下移動(dòng)他們的工作負載。但到目前為止,這種格式仍有一個(gè)缺點(diǎn)——由于表模式和存儲優(yōu)化與引擎等緊密耦合,因此使用起來(lái)難免“束手束腳”。

而Iceberg是一個(gè)通過(guò)與開(kāi)放文件格式一起使用來(lái)避免這種耦合的開(kāi)放表格式。模式、分區等表信息作為元數據文件的一部分單獨存儲,使應用更容易與表和它們所選擇的存儲格式快速集成。由于查詢(xún)不再依賴(lài)于表的物理布局,Iceberg表可以隨著(zhù)數據量的變化而逐漸實(shí)現分區方案的演進(jìn)。

原因三:開(kāi)源功能有效規避供應商“陷阱”

開(kāi)源對于避免供應商“陷阱”至關(guān)重要,但許多供應商會(huì )在兜售開(kāi)源工具時(shí)隱瞞他們自主開(kāi)發(fā)的版本與開(kāi)源社區之間的差距。這意味著(zhù)當客戶(hù)嘗試去使用開(kāi)源版本時(shí),他們才會(huì )發(fā)現二者之間存在顯著(zhù)差異。如此說(shuō)來(lái),避開(kāi)供應商陷阱實(shí)則困難重重。

而Apache Iceberg項目是一個(gè)充滿(mǎn)活力的社區,它正迅速擴大對各種處理引擎的支持并不斷增加新功能。為了使該社區及新的表格式獲得持續成功,Cloudera為上游社區提供跨Spark、Hive和Impala的支持,意在促使Apache Iceberg被廣泛采納并可供有意構建新一代數據架構的企業(yè)所使用。該社區提供了許多功能改進(jìn)及性能特性,例如向量化讀取和Z-Order等,無(wú)論用戶(hù)使用什么引擎或供應商來(lái)訪(fǎng)問(wèn)表,都將從中受益。在CDP中,這已經(jīng)作為Impala MPP開(kāi)源引擎對Z-Order提供的一部分支持。

如之前所述,在查詢(xún)規劃方面Iceberg依賴(lài)于元數據文件,這些文件包含了數據駐留的位置以及分區和模式如何分布在文件中。雖然這實(shí)現了模式的演變,但如果表格的變化過(guò)多,就會(huì )帶來(lái)問(wèn)題。為此社區創(chuàng )建了一個(gè)API來(lái)讀取元數據文件,同時(shí)也在同步進(jìn)行其他類(lèi)似的優(yōu)化。這種開(kāi)放標準方法讓用戶(hù)可以在Iceberg上以CDP中的性能運行工作負載,且無(wú)需擔心落入供應商“陷阱”中。

原因四:有效降低企業(yè)級應用學(xué)習和管理門(mén)檻

作為Cloudera企業(yè)平臺的一部分,Iceberg的原生集成受益于企業(yè)級的共享數據體驗(SDX)功能,例如數據沿襲、審計和安全等,而且無(wú)需重新設計或第三方工具集成,因此不會(huì )增加管理的復雜性,也不需要額外學(xué)習。CDP中的Apache Iceberg表被集成在SDX Metastore中用于表結構和訪(fǎng)問(wèn)驗證,這意味著(zhù)用戶(hù)可以進(jìn)行審計并創(chuàng )建細粒度的政策,實(shí)現即開(kāi)即用。

原因五:Apache Iceberg開(kāi)啟全新使用場(chǎng)景

Apache Hive表實(shí)現了對數據倉儲、數據工程和機器學(xué)習的集中訪(fǎng)問(wèn),奠定了良好的性能基礎。同時(shí),它還支持開(kāi)放的文件格式(ORC、AVRO、Parquet等),并通過(guò)ACID和事務(wù)支持幫助實(shí)現新的用例。但由于元數據的集中化并且抽象化主要基于文件,因此它在規模等方面不免面臨挑戰。

Iceberg克服了規模和性能方面的挑戰,同時(shí)加入了一系列新的功能,能夠解決不同行業(yè)和用例的挑戰。例如:

●   變更數據捕獲(CDC)

能夠處理具有原子性和一致性的Delta表雖然早已普及,而且Hive ACID等現有的解決方案也能提供這種功能,但該功能對大多數提供DW和BI用例的數據處理管道來(lái)說(shuō)至關(guān)重要。因此Iceberg從一開(kāi)始就通過(guò)支持行級更新和刪除來(lái)解決這個(gè)問(wèn)題。它在不深入到細節的情況下可以使用多種不同的方法來(lái)實(shí)現這一點(diǎn),例如寫(xiě)時(shí)拷貝(Copy-on-write)與讀時(shí)合并(Merge-on-read)。但更重要的是,隨著(zhù)這些解決方案以及Iceberg開(kāi)放標準格式的持續發(fā)展,我們將看到處理類(lèi)似用例的更優(yōu)表現。

●   金融監管

許多金融和受到高度監管的行業(yè)都希望能夠回溯歷史,甚至希望能夠將表狀態(tài)恢復到特定的時(shí)間點(diǎn)。Apache Iceberg的“快照”和“時(shí)間旅行”功能可以幫助分析和審計人員輕松回溯歷史并使用簡(jiǎn)單的SQL來(lái)分析數據。

●   機器學(xué)習運維的可重復性

通過(guò)允許檢索之前的表狀態(tài),Iceberg讓機器學(xué)習工程師能夠使用原始狀態(tài)的數據重新訓練模型,并執行將預測與歷史數據相匹配的事后分析。通過(guò)這些存儲的歷史特征,可以對模型進(jìn)行重新評估、找出不足之處并部署更新、更好的模型。

●   簡(jiǎn)化數據管理

大多數數據從業(yè)者需要耗費很多時(shí)間來(lái)應對數據管理的復雜性,為項目確定新的數據源并將新的屬性加入到現有的數據模型中就是其中之一。以前,這可能會(huì )因為需要重新創(chuàng )建和重新加載表而導致開(kāi)發(fā)周期過(guò)于漫長(cháng),尤其是在引入新的分區時(shí)。但有了Iceberg表及其元數據清單文件,就可以簡(jiǎn)化這些更新并且不產(chǎn)生額外的費用。

o   模式演變:表中的列可以就地改變(添加、刪除、重命名、更新或重新排序)而不影響數據的可用性。所有變化都可以在元數據文件中被追蹤,Iceberg 確保模式變化獨立且沒(méi)有副作用(比如錯誤的值)。

o   分區演變:可通過(guò)與模式演變相同的方式改變Iceberg表中的分區。在分區演變過(guò)程中,舊的數據保持不變,新的數據將按照新的分區規格寫(xiě)入。Iceberg 使用隱藏分區,通過(guò)分割規劃自動(dòng)修剪包含新舊分區規格中的匹配數據的文件。

o   細粒度的分區:以前,在查詢(xún)規劃期間所面臨的主要瓶頸是元數據倉以及將分區加載到內存中,限制了用戶(hù)使用小時(shí)等細粒度的分區方案以避免隨著(zhù)表規模的增長(cháng)而導致性能不佳。Iceberg克服了這些可擴展性方面的挑戰,通過(guò)同時(shí)避免元數據倉和內存瓶頸,使用戶(hù)能夠使用更細粒度、最適合應用需求的分區方案來(lái)實(shí)現更快的查詢(xún)。

這意味著(zhù)數據從業(yè)者可以將更多的時(shí)間用于創(chuàng )造業(yè)務(wù)價(jià)值和開(kāi)發(fā)新的數據應用,減少處理數據管理的時(shí)間,即根據業(yè)務(wù)的速度實(shí)現數據演進(jìn),避免本末倒置。

●   輕松構建數據倉庫

我們已經(jīng)看到了數據倉庫領(lǐng)域的很多趨勢,其中最新的趨勢就是湖倉——一種將數據倉庫和數據湖相結合的融合架構。在企業(yè)中,加速此類(lèi)融合架構的一個(gè)關(guān)鍵因素是存儲與處理引擎的解耦。但這必須與從串流和實(shí)時(shí)分析到倉儲和機器學(xué)習等多功能分析服務(wù)相結合,僅憑分析工作負載或將兩者相結合還不夠。因此CDP中的Iceberg不具有固定形態(tài),它更多的是一種兼容一切引擎的開(kāi)放式數據底層,可以在云端進(jìn)行擴展。

這使得企業(yè)可以輕松構建“任何”數據倉庫,而不必使用專(zhuān)門(mén)的存儲格式來(lái)獲得最佳性能,也不必在一個(gè)引擎或服務(wù)中進(jìn)行專(zhuān)有優(yōu)化。



關(guān)鍵詞:

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>