<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > 開(kāi)放式數據湖倉,釋放數據分析無(wú)限潛能

開(kāi)放式數據湖倉,釋放數據分析無(wú)限潛能

作者:Cloudera首席技術(shù)官Ram Venkatesh,Cloudera 產(chǎn)品管理副總裁 Priyank Patel 時(shí)間:2022-07-14 來(lái)源:電子產(chǎn)品世界 收藏

客戶(hù)運行著(zhù)地球上最大的一些。這些湖為關(guān)鍵任務(wù)大規模數據分析、商業(yè)智能 (BI) 和機器學(xué)習用例,包括企業(yè)數據倉庫,提供動(dòng)力。近年來(lái),創(chuàng )造了“倉”一詞來(lái)描述這種對中的數據進(jìn)行表分析的架構模式。在匆匆奔向這個(gè)術(shù)語(yǔ)的過(guò)程中,許多廠(chǎng)商忽略了這樣一個(gè)事實(shí),即數據架構的開(kāi)放性是其持久性和長(cháng)盛不衰的保證。

本文引用地址:http://dyxdggzs.com/article/202207/436213.htm

 

關(guān)于數據倉庫和數據湖

 

數據湖和數據倉庫將海量的各種類(lèi)型數據統一到一個(gè)中心位置。但是有著(zhù)截然不同的架構世界觀(guān)。數倉是為SQL 分析垂直集成的,而數據湖優(yōu)先考慮 SQL 之外的分析方法的靈活性。

 

為了能兼得魚(yú)與熊掌——數據湖中分析的靈活性和數倉中簡(jiǎn)單快速的 SQL,企業(yè)經(jīng)常部署數據湖來(lái)補充他們的數倉,在數據提取、轉換、加載 (ETL) ELT 管道的最后一步讓數據湖為數倉系統提供數據。在這樣做的過(guò)程中,他們等于接受了數據在倉庫中的鎖定。

 

但可以有一個(gè)更好的方法:用 Hive 元存儲,這是過(guò)去十年數據平臺一個(gè)出人意料的好產(chǎn)品。隨著(zhù)用例的成熟,我們看到高效的交互式 BI 分析和事務(wù)語(yǔ)義來(lái)修改數據的需求。

 

數據湖倉的迭代

 

第一代 Hive元存儲試圖解決在數據湖上高效運行 SQL 的性能考慮。它提供了數據庫、模式和表的概念,用于描述數據湖的結構,讓 BI 工具可以有效地充分使用數據。它添加了描述數據邏輯和物理布局的元數據,支持基于成本的優(yōu)化器、動(dòng)態(tài)分區裁剪以及針對 SQL 分析的一些關(guān)鍵性能改進(jìn)。

 

第二代 Hive元存儲添加了對使用 Hive ACID 的事務(wù)更新的支持。數據湖倉雖然尚未正式命名,但已開(kāi)始熱鬧。事務(wù)性啟用了持續攝取和插入/更新/刪除(或合并)的用例,從而打開(kāi)了數倉樣式的查詢(xún)、功能以及從其他數倉系統到數據湖的遷移。這對我們的許多客戶(hù)來(lái)說(shuō)非常有價(jià)值。

 

Delta Lake項目采用不同的方法來(lái)解決這個(gè)問(wèn)題。Delta Lake為數據湖中的數據添加了事務(wù)支持??梢赃M(jìn)行數據策管,為數據湖帶來(lái)了運行數倉式分析的可能性。

 

漸漸的在某個(gè)時(shí)刻,“數據湖倉”這個(gè)詞因為這種架構模式而被造出來(lái)了。我們相信湖倉是簡(jiǎn)潔地定義這種模式的好方法,并很快在客戶(hù)和行業(yè)中獲得了共識。

 

 

開(kāi)放數據湖倉滿(mǎn)足互操作性需求

 

在過(guò)去幾年中,隨著(zhù)新數據類(lèi)型的誕生和新的數據處理引擎的出現,為了簡(jiǎn)化分析,企業(yè)所期望的兩全其美真的需要分析引擎的靈活性。如果企業(yè)海量有價(jià)值的數據需要被管理,那么企業(yè)必須能夠開(kāi)放的選擇不同的分析引擎,甚至是供應商。

 

湖倉模式在實(shí)施過(guò)程中存在一個(gè)嚴重的矛盾:雖然數據湖是開(kāi)放的,但湖倉卻不是。

 

在能夠添加 Impala、Spark 等引擎之前,Hive元存儲一直遵循 Hive為先的演進(jìn)。Delta lakeSpark為主的演進(jìn);如果客戶(hù)想要自由選擇不同的引擎而不只是表格式,他們的選擇極為有限。

 

客戶(hù)從一開(kāi)始就要求更多。更多格式、更多引擎、更多互操作性。今天,Hive 元存儲被多個(gè)引擎和多個(gè)存儲選項使用。除了 Hive Spark,還有 Presto、Impala 等等。Hive元存儲是有機地演進(jìn)支持這些用例,因此集成通常很復雜且容易出錯。

 

為滿(mǎn)足互操作性需求而設計的開(kāi)放數據湖倉從根本上解決了這一架構問(wèn)題。它會(huì )讓那些全押在一個(gè)平臺上的人感到不安,但社區驅動(dòng)的創(chuàng )新能幫助解決現實(shí)世界的問(wèn)題,以務(wù)實(shí)的方式幫助使用同類(lèi)最佳工具,并克服供應商的鎖定。

 

開(kāi)放湖倉Apache Iceberg的誕生

 

Apache Iceberg 從一開(kāi)始構建時(shí),其目標就是在多個(gè)分析引擎在云原生規模上輕松實(shí)現互操作。這項創(chuàng )新的誕生之地 Netflix 需要將 100 PB 規模的 S3 數據湖構建到數倉中,這可能是最佳示例了。云原生表格式由其創(chuàng )建者開(kāi)源到 Apache Iceberg 中。

 

Apache Iceberg 真正的超級力量是它的社區。在過(guò)去三年中,Apache Iceberg 社區有機地蓬勃發(fā)展,增加了一系列令人贊嘆的優(yōu)異集成:

 

·       數據處理和 SQL 引擎 Hive、Impala、Spark、PrestoDB、Trino、Flink

·       多種文件格式:Parquet、AVRO、ORC

·       社區中的大型采用者:Apple、LinkedIn、Adobe、Netflix、Expedia

·       AWS Athena、、EMR、Snowflake、騰訊、阿里巴巴、Dremio、Starburst 的托管服務(wù)

 

使這個(gè)多樣化的社區蓬勃發(fā)展的原因是數千家公司的集體需求,以確保數據湖可以演變?yōu)榘瑪祿}庫,同時(shí)保持跨引擎的分析靈活性和開(kāi)放性。這使得開(kāi)放式湖倉成為可能:為未來(lái)提供無(wú)限的分析靈活性。

 

擁抱Iceberg模式

 

Cloudera,我們?yōu)槲覀兊拈_(kāi)源根基感到自豪,并致力于社區貢獻。自 2021 年以來(lái),我們?yōu)槿找鎵汛蟮?/span> Iceberg 社區在 Impala、Hive、Spark Iceberg 上做出了數百項貢獻。我們擴展了 Hive 元存儲將集成添加到我們的許多開(kāi)源引擎中以充分利用 Iceberg 表。2022 年初,我們在 Cloudera Data Platform (CDP) 中提供了 Apache Iceberg 的技術(shù)預覽,使 Cloudera 客戶(hù)能夠在我們的數據倉庫、數據工程和機器學(xué)習服務(wù)中實(shí)現 Iceberg 的模式和時(shí)間旅行能力。

 

我們的客戶(hù)一直告訴我們,無(wú)論是現代 BI、AI/ML、數據科學(xué)還是更多,分析需求都在迅速發(fā)展。選擇由 Apache Iceberg 提供支持的開(kāi)放數據湖倉讓企業(yè)可以自由選擇分析。




關(guān)鍵詞: Cloudera 數據湖

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>