肯睿Cloudera助力企業(yè)將AI與分析部署到開(kāi)放式數據湖倉一體架構,統一企業(yè)數據
肯睿Cloudera的客戶(hù)大多運行著(zhù)龐大的數據湖,從而為關(guān)鍵大規模數據分析和AI用例(包括企業(yè)數據庫)提供助力。根據IDC發(fā)布的《IDC MarketScape:中國實(shí)時(shí)湖倉市場(chǎng)2024年廠(chǎng)商評估》報告中的數據顯示,未來(lái)12個(gè)月,選擇外部合作來(lái)構建數據管理服務(wù)的企業(yè)比例將從58%快速增長(cháng)至85%。數據量的快速增長(cháng)、對數據管理需求的升級以及技術(shù)架構復雜度和獨立開(kāi)發(fā)成本的上升,都將推動(dòng)企業(yè)開(kāi)始越來(lái)越多地考慮湖倉一體的管理解決方案。
本文引用地址:http://dyxdggzs.com/article/202409/462659.htm肯睿Cloudera在平臺中提供的Apache Iceberg能夠幫助用戶(hù)避免廠(chǎng)商鎖定,實(shí)現開(kāi)放式湖倉一體架構。借助由 Apache Iceberg 支持的開(kāi)放式湖倉一體架構,企業(yè)可以更好地利用分析和AI的力量。近日,肯睿Cloudera還宣布了現代化數據目錄和Iceberg REST集成這兩項關(guān)鍵增強功能更新,以加強元數據管理,進(jìn)一步提高開(kāi)放式數據湖倉一體架構內部的開(kāi)放互通性,滿(mǎn)足數據全生命周期內日益增長(cháng)的安全和治理需求。
將AI和分析部署到開(kāi)放式數據湖倉一體架構中有諸多優(yōu)點(diǎn),其主要優(yōu)勢之一是能夠將不同來(lái)源的數據集中到一個(gè)單一且連貫的存儲庫中。開(kāi)放式數據湖倉一體架構融合了數據湖的靈活性,以及數據倉庫的結構化查詢(xún)功能,可以容納多種類(lèi)型、格式和速度的原始數據和處理后的數據。這種統一的數據環(huán)境不僅避免了維護獨立數據孤島的工作,還便于A(yíng)I和分析應用無(wú)縫訪(fǎng)問(wèn)數據。
肯睿Cloudera可助力企業(yè)充分利用開(kāi)放式數據湖倉一體架構的以下優(yōu)勢:
● 數據湖和數據倉庫的集成: 開(kāi)放式數據湖倉一體架構整合了數據湖的存儲靈活性,以及數據倉庫的查詢(xún)性能和結構化查詢(xún)功能,實(shí)現了兩者的緊密結合。
● 開(kāi)放性: 開(kāi)放式數據湖倉一體架構中的 “開(kāi)放 ”一詞指的是與各種數據處理框架、分析工具和編程語(yǔ)言的互通性和兼容性。這種開(kāi)放性使數據科學(xué)家、分析師和開(kāi)發(fā)人員能夠充分利用他們的首選工具和方法來(lái)探索、分析數據并從中獲得洞察,以更好地協(xié)作和創(chuàng )新。無(wú)論是基于 SQL 的傳統查詢(xún)、先進(jìn)的機器學(xué)習(ML)算法,還是復雜的數據處理工作流程,開(kāi)放式數據湖倉一體架構都能提供一個(gè)可適應各種分析工作負載的靈活、可擴展的平臺。
● 可擴展性和靈活性:與傳統數據湖一樣,開(kāi)放式數據湖倉一體架構也能夠橫向擴展,容納來(lái)自不同來(lái)源的大量數據。它可以靈活存儲原始數據和處理后的數據,幫助企業(yè)適應不斷變化的數據要求和分析需求。隨著(zhù)數據量增長(cháng)和分析需求的變化,企業(yè)可以連續橫向擴展其基礎設施,以滿(mǎn)足不斷增加的數據攝取、處理和存儲需求。這種可擴展性確保了數據湖倉一體架構即使在數據復雜性和使用模式發(fā)生變化時(shí),也能保持響應速度和性能。
● 統一的數據平臺: 開(kāi)放式數據湖倉一體架構作為數據存儲、處理和分析的統一平臺,減少了維護獨立數據孤島和 ETL(提取、轉換、加載)流程的需要。將AI和分析部署到開(kāi)放式數據湖倉一體架構中可以促進(jìn)數據的民主化和自助式分析,讓整個(gè)企業(yè)的用戶(hù)都能夠自主訪(fǎng)問(wèn)、分析數據并從中獲得洞察。通過(guò)提供統一、可訪(fǎng)問(wèn)的數據平臺,企業(yè)能夠打破數據孤島、實(shí)現數據和分析工具訪(fǎng)問(wèn)的民主化,并在各級培養數據驅動(dòng)決策的習慣。這種數據和分析的民主化可提高企業(yè)的敏捷性和競爭力以及員工的協(xié)作能力和數據素養(data-literate)。
● 支持現代分析工作負載: 開(kāi)放式數據湖倉一體架構支持基于SQL的查詢(xún)和高級分析框架(如ML、圖形處理等),滿(mǎn)足了各種分析工作負載的需求,包括即席查詢(xún)(Ad Hoc Query)、復雜數據處理和預測建模等工作。
● 數據治理與安全:肯睿Cloudera近日發(fā)布的元數據管理解決方案的兩項關(guān)鍵增強功能,滿(mǎn)足了數據全生命周期內日益增長(cháng)的安全和治理需求??项loudera的Iceberg REST Catalog集成允許使用第三方引擎無(wú)縫訪(fǎng)問(wèn)Apache Iceberg表,幫助用戶(hù)在充分利用各種工具的同時(shí),確保統一的安全性和治理。該集成能夠簡(jiǎn)化數據訪(fǎng)問(wèn),并維持各個(gè)平臺上的數據權限和溯源,通過(guò)更大程度地減少獨立安全層數量來(lái)降低成本和數據泄露的風(fēng)險。
此外,肯睿Cloudera的共享數據體驗(SDX)現已發(fā)布以云原生容器形式提供的技術(shù)預覽版,實(shí)現了端到端的統一數據安全、治理和元數據管理,并且已得到增強,具有更出色的彈性、擴展性和性能。SDX還提供各種工具的自助式數據訪(fǎng)問(wèn)、通過(guò)整合安全功能,更大程度地降低違規風(fēng)險,并支持覆蓋云和本地數據的統一視圖窗口管理。
開(kāi)放式數據湖倉一體架構代表了一種現代化的數據管理和分析方法,助力企業(yè)充分挖掘其數據資產(chǎn)潛力的同時(shí),實(shí)現開(kāi)放性、可擴展性和互通性。
評論