<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 消費電子 > 設計應用 > 大數據行業(yè)必須掌握的25個(gè)大數據術(shù)語(yǔ)

大數據行業(yè)必須掌握的25個(gè)大數據術(shù)語(yǔ)

作者：時(shí)間：2018-07-26 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

提到大數據可能有些令人生畏。在了解一定基本概念的基礎上，掌握其中一些關(guān)鍵術(shù)語(yǔ)也是至關(guān)重要的。

本文引用地址：http://dyxdggzs.com/article/201807/384132.htm

本文列出了 25 個(gè)必須掌握的大數據術(shù)語(yǔ)。

算法(Algorithm)

指用于執行數據分析的數學(xué)公式或統計過(guò)程。那么算法與大數據有什么關(guān)系呢?雖然算法是一個(gè)通用術(shù)語(yǔ)，但大數據分析使得這個(gè)詞變得更具時(shí)代性，更受歡迎。

分析(Analytics)

你的信用卡公司會(huì )將附有你全年交易情況的年終報表寄給你。如果具體看在食物，衣服，娛樂(lè )等方面花了多少錢(qián)呢?那么你就在進(jìn)行“分析”。你正在從原始數據中獲得一些見(jiàn)解，這可以幫助你決定來(lái)年的支出。

如果你對朋友、網(wǎng)絡(luò )或者自己的公司發(fā)的推文以及 facebook 帖子進(jìn)行同樣的操作，那我們現在就涉及的就是大數據分析了。它是通過(guò)使用大量數據進(jìn)行推論并得出結論。共有三種不同類(lèi)型的分析。

1. 描述性分析(Descriptive Analytics)

如果你告訴我，去年你的信用卡消費中 25% 用于食物，35% 用于服裝，20% 用于娛樂(lè )活動(dòng)，其他的用于雜物，這就是描述性的分析。當然，你也可以進(jìn)行更詳細的了解。

2. 預測分析(Predictive Analytics)

如果你分析了過(guò)去5年的信用卡記錄，發(fā)現當中有一定的一致性，那么你可以較有把握地預測，明年的情況將與過(guò)去幾年類(lèi)似。值得注意的是，這并不是“預測未來(lái)”，而是“預測事情發(fā)生的可能性”。在大數據預測分析中，數據科學(xué)家會(huì )使用數據挖掘，機器學(xué)習和高級統計過(guò)程等先進(jìn)技術(shù)，進(jìn)行天氣，經(jīng)濟等方面的預測。

3.規范分析(Prescriptive Analytics)

還是用信用卡的例子，你可能會(huì )想知道哪些消費目標(例如食品、娛樂(lè )、服裝等)會(huì )對你的整體消費產(chǎn)生巨大的影響。規范分析通過(guò)包括“行為”(即減少購買(mǎi)食物、衣服或娛樂(lè ))和對結果進(jìn)行分析，從而預測規范相應目標，從而減少你的總開(kāi)銷(xiāo)。將此擴展到大數據，你可以想象管理人員如何通過(guò)研究各種行為影響，從而做出數據驅動(dòng)的決策。

批量處理(Batch processing)

盡管從大型計算機時(shí)代開(kāi)始，批量處理就已經(jīng)出現了。由于處理大型數據集，批量處理對大數據具有額外的意義。批量數據處理是處理一段時(shí)間內收集的大量數據的有效方式。稍后我將介紹的 Hadoop 就是專(zhuān)注于批量數據處理。

Cassandra

是由 Apache 軟件基金會(huì )管理的一個(gè)流行的開(kāi)源數據庫管理系統。Apache 屬于大數據技術(shù)，Cassandra 旨在處理跨分布式服務(wù)器的大量數據。

云計算(Cloud computing)

云計算已經(jīng)變得無(wú)所不在，所以在這里僅處于完整性的考慮將其歸納在內。它本質(zhì)上是在遠程服務(wù)器上托管和運行的軟件及數據，并可從互聯(lián)網(wǎng)的任何地方進(jìn)行訪(fǎng)問(wèn)。

集群計算(Cluster computing)

這是一個(gè)使用多個(gè)服務(wù)器集合資源的“集群”的計算術(shù)語(yǔ)。要想更技術(shù)性的話(huà)，就會(huì )涉及到節點(diǎn)，集群管理層，負載平衡和并行處理等概念。

暗數據(Dark Data)

基本上指的是，由企業(yè)收集和處理的，但并不用于任何意義性目的的數據，因此它是“暗”的，可能永遠不會(huì )被分析。它可以是社交網(wǎng)絡(luò )反饋，呼叫中心日志，會(huì )議筆記等等。有很多人估計，所有企業(yè)數據中的 60-90% 可能是“暗數據”，但誰(shuí)又真正知道呢?

數據湖(Data lake)

當第一次聽(tīng)到這個(gè)概念，我還以為是在開(kāi)玩笑。但這真是一個(gè)術(shù)語(yǔ)。數據湖是原始格式的企業(yè)級數據的大型存儲庫。與此同時(shí)我們可以涉及數據倉庫，它在概念上是相似的，也是企業(yè)級數據的存儲庫，但在清理、與其他來(lái)源集成之后是以結構化格式。數據倉庫通常用于常規數據(但不是專(zhuān)有的)。數據湖使得訪(fǎng)問(wèn)企業(yè)級數據更加容易，你需要明確你要尋找什么，以及如何處理它并明智地試用它。

數據挖掘(Data mining)

數據挖掘是通過(guò)使用復雜的模式識別技術(shù)，從而找到有意義的模式，并得出大量數據的見(jiàn)解。這與我們之前討論的“數據分析”術(shù)語(yǔ)密切相關(guān)，因為你將通過(guò)挖掘數據進(jìn)行分析。為了獲得有意義的模式，數據挖掘者使用統計，機器學(xué)習算法和人工智能。

數據科學(xué)家(Data Scientist)

一個(gè)熱門(mén)的職業(yè)。指的是通過(guò)提取原始數據，對其進(jìn)行處理，并提出自己的見(jiàn)解的人。數據科學(xué)家需要具備超人般的技能：分析，統計，計算機科學(xué)，創(chuàng )造力，故事講述和理解環(huán)境的能力。難怪他們薪水這么高。

分布式文件系統(Distributed File System)

由于大數據太大而無(wú)法存儲在單個(gè)系統上，分布式文件系統是一種數據存儲系統用于存儲跨多個(gè)存儲設備的大量數據，并有助于降低存儲大量數據的成本和復雜性。

ETL

ETL 指的是提取，轉換和加載。具體指的是“提取”原始數據的過(guò)程，通過(guò)清理、豐富數據將其“轉換”成適合使用的，并“加載”到適當的存儲庫中以供系統使用。雖然它源于數據倉庫，但ETL過(guò)程也被用來(lái)從大數據系統的外部資源中獲取和吸收數據。

Hadoop

當想到大數據時(shí)，人們立即會(huì )想到 Hadoop 。Hadoop(具有可愛(ài)的大象標志)是一個(gè)開(kāi)源軟件框架，由所謂的 Hadoop 分布式文件系統(HDFS)組成，并允許使用分布式硬件對非常大的數據集進(jìn)行存儲，檢索和分析。如果你真的想給別人留下深刻的印象，還可以談?wù)?YARN，顧名思義，這是一種資源調度程序。取名字的人真太有才了。Apache 基金會(huì )還推出了 Hadoop，Pig，Hive 以及 Spark(是的，這些都是各種軟件的名稱(chēng))。真是服了這些名字。

內存計算(In-memory computing)

一般來(lái)說(shuō)，任何可以在不訪(fǎng)問(wèn) I / O 的情況下完成的計算都是很快的。內存計算是一種將工作數據集完全放在集群的集體內存中，避免將中間計算寫(xiě)入磁盤(pán)的技術(shù)。Apache Spark 是一個(gè)內存計算系統，它在速度超過(guò) I / O 綁定系統(如 Hadoop 的MapReduce)方面擁有巨大的優(yōu)勢。

物聯(lián)網(wǎng)(IoT)

最新的流行語(yǔ)是物聯(lián)網(wǎng)(IOT)。IOT 通過(guò)互聯(lián)網(wǎng)將嵌入式對象(傳感器，可穿戴設備，汽車(chē)，冰箱等)中的計算設備進(jìn)行互連，并且能夠發(fā)送以及接收數據。IOT 生成大量數據，提供了大量大數據分析的機會(huì )。

機器學(xué)習(Machine learning)

機器學(xué)習是指通過(guò)提供的數據，使系統能夠學(xué)習，調整和改進(jìn)。通過(guò)預測和統計算法，他們不斷學(xué)習“正確”的行為和洞察力，隨著(zhù)更多的數據流通過(guò)該系統，得以不斷地改進(jìn)。

MapReduce

MapReduce 可能會(huì )有點(diǎn)難懂。MapReduce 是一個(gè)編程模型，為了更好的理解，需注意 Map 和 Reduce 其實(shí)是兩個(gè)獨立的部分。在這種情況下，編程模型首先將大數據數據集分解成多個(gè)部分(在技術(shù)術(shù)語(yǔ)中稱(chēng)為“元組”)，因此可以分布在不同位置的不同計算機上(即前面所述的集群計算)，這基本上就是 Map 部分。然后，該模型收集結果并將其“減少”為一個(gè)報告。MapReduce 的數據處理模式與Hadoop 的分布式文件系統緊密相關(guān)。

NoSQL

聽(tīng)起來(lái)像是 SQL (結構化查詢(xún)語(yǔ)言)的反面，SQL 是傳統關(guān)系數據庫管理系統(RDBMS)的主要內容。但 NOSQL 實(shí)際上意味著(zhù)不僅僅是 SQL (Not ONLY SQL)。NoSQL 實(shí)際上是指的是用于處理大量數據的數據庫管理系統，它們不具有結構，或被稱(chēng)為“架構”(類(lèi)似關(guān)系數據庫)。NoSQL 數據庫通常適合大型數據系統，因為它們具有大型非結構化數據庫所需的靈活性和分布式的優(yōu)先體系結構。

R

R 是一種編程語(yǔ)言，在統計計算方面很出色。如果你不知道 R，你就稱(chēng)不上是數據科學(xué)家。R 是數據科學(xué)中最受歡迎的語(yǔ)言之一。

Spark(Apache Spark)

Apache Spark 是一種快速的內存數據處理引擎，用于高效執行流，機器學(xué)習或需要快速迭代訪(fǎng)問(wèn)數據集的 SQL 工作負載。Spark 通常比我們前面提及的 MapReduce 快很多。

流處理(Stream processing)

流處理旨在對有“連續”要求的實(shí)時(shí)和流數據進(jìn)行處理。結合流分析，即在流內不間斷地計算數學(xué)或統計分析的能力。流處理解決方案旨在對高流量進(jìn)行實(shí)時(shí)處理。

結構化 v 非結構化數據(Structured v Unstructured Data)

這是大數據中的“V”之一，即多樣性。結構化數據基本上指任何可以放在關(guān)系數據庫中，并以該方式組織起來(lái)，通過(guò)表與其他數據相關(guān)。非結構化數據則反之，如無(wú)法發(fā)電子郵件，發(fā)社交媒體帖子和錄制的人類(lèi)語(yǔ)音等。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 計算機 云計算

評論

相關(guān)推薦

計算機麥克風(fēng)電路圖

設計方案計算機麥克風(fēng) 電路圖 | 2009-07-06

我國設立計算機創(chuàng )新獎勵基金

hpnet | 2002-05-17

利用計算機并口和MAX7221驅動(dòng)LED程序

資源下載計算機并口 LED驅動(dòng) MAX7221 | 2007-02-09

人機接口與協(xié)議自適應

資源下載計算機普適網(wǎng)絡(luò )協(xié)議接口自適應 | 2008-01-06

計算機音頻工作站總論--音頻工作站與硬盤(pán)錄音機同類(lèi)比較(轉載）

hpnet | 2002-05-15

模擬大腦突觸的液體電路如何實(shí)現計算機的邏輯運算

電路計算機邏輯運算 | 2024-04-18

第一講安卓應用開(kāi)發(fā)介紹

視頻 Android 計算機 | 2012-07-18

BIOS是什么？

嵌入式系統 BIOS 計算機 | 2024-03-11

消息稱(chēng)微軟裁員1000多人涉及云計算、混合現實(shí)等部門(mén)

智能計算微軟云計算混合現實(shí) | 2024-06-04

世界工控技術(shù)市場(chǎng)的現狀和未來(lái)

hpnet | 2002-07-23

采用TC620溫度傳感器的計算機機房溫控電路

設計方案采用 TC620 溫度傳感器計算機機房溫控 | 2009-07-06

第二講 Hello World

視頻 Android 計算機 | 2012-07-18

TL5001構成計算機LCD顯示器的高壓電源的應用電路

設計方案 TL5001 構成計算機顯示器高壓電源應用電路 | 2009-07-06

國家數據局：“東數西算”工程 10 個(gè)國家數據中心集群算力總規模超 146 萬(wàn)標準機架

智能計算東數西算數據中心云計算 | 2024-07-22

豐田將與騰訊在電動(dòng)汽車(chē)人工智能、云計算和大數據方面展開(kāi)合作

汽車(chē)電子豐田騰訊電動(dòng)汽車(chē) 人工智能云計算大數據 | 2024-05-07

谷歌云計算部門(mén)再裁員，至少100名員工受影響

國際視野谷歌計算機國際 | 2024-06-04

DK04監控模塊與計算機通信接口電路

設計方案監控模塊計算機通信接口 | 2009-07-06

帶光隔離的計算機彩燈控制器

資源下載計算機計算機彩燈控制器 | 2007-12-25

第四講網(wǎng)絡(luò )數據獲取和顯示

視頻 Android 計算機 | 2012-07-18

計算機通訊在計量管理中的應用

hpnet | 2002-07-18

很好的一篇入門(mén)文章，特別推薦(老站轉)

amine | 2002-05-28

第五講用戶(hù)界面改進(jìn)

視頻 Android 計算機 | 2012-07-18

我國西部首個(gè)，重慶算力互聯(lián)互通平臺在兩江新區上線(xiàn)

智能計算云計算網(wǎng)絡(luò ) 服務(wù)器 | 2024-07-11

第三講用戶(hù)界面基礎

視頻 Android 計算機 | 2012-07-18

再再再升級！美國修訂半導體出口管制措施，擬于4月4日生效

嵌入式系統美國半導體 AI 芯片云計算 | 2024-04-02

利用計算機設計單片開(kāi)關(guān)電源講座(1)

資源下載計算機電源單片開(kāi)關(guān)電源 | 2007-02-09

FPT Smart Cloud 成為英偉達NCP云服務(wù)生態(tài)合作伙伴

智能計算云計算越南日本 FPT | 2024-03-18

亞馬遜云科技與英偉達擴展合作持續推進(jìn)生成式AI創(chuàng )新

智能計算亞馬遜云科技云計算英偉達 | 2024-03-20

電腦串口、并口連接線(xiàn)大全

資源下載計算機串口并口連接線(xiàn) | 2008-01-06

由智能化遠程熱風(fēng)扇控制器ADT7460構成的計算機的散熱控制電路

設計方案智能化遠程風(fēng)扇控制器 ADT7460 構成計算機散 | 2009-07-06

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>