大數據與IT基礎架構
有研究表明:人類(lèi)70%的活動(dòng)都是有規律可循的。大數據,可以讓我們看到這種規律并預知未來(lái),例如通過(guò)整理近期的氣象情況和衛星云圖,我們能夠判斷未來(lái)幾天的天氣狀況。去年,央視兩次攜手百度分別打造“據說(shuō)春運”與“據說(shuō)春節”特別節目——“據說(shuō)春運”攜手百度地圖,用大數據展現春節前后人口大遷徙的軌跡與特征;“據說(shuō)春節”運用百度大數據來(lái)述說(shuō)回娘家、恐婚族等春節長(cháng)假期間的熱門(mén)話(huà)題??梢?jiàn),通過(guò)解讀數據可以發(fā)現有趣的現象、挖掘以往被忽視的規律,還可以對人類(lèi)的行為進(jìn)行預測。
本文引用地址:http://dyxdggzs.com/article/275502.htm事實(shí)上,數據分析的案例自古有之,在前幾年也有很多數據挖掘技術(shù)和應用的出現。但這些數據挖掘技術(shù)對數據的使用,都是先抽樣、萃取人們或系統認為有價(jià)值的數據,再分析、挖掘,而并不是使用全部數據。原因很簡(jiǎn)單——信息的收集、存儲和信息分析的系統構建、維護成本過(guò)于巨大,所以人們總是習慣在信息收集的過(guò)程中,把有關(guān)聯(lián)的少部分精確數據留下。
以人們的日常購買(mǎi)行為為例,傳統超市會(huì )通過(guò)對“時(shí)間、產(chǎn)品銷(xiāo)售量/銷(xiāo)售額”這幾個(gè)指標的分析,判斷近期哪些貨品是熱銷(xiāo)產(chǎn)品,在短期更受用戶(hù)的歡迎,進(jìn)而對熱銷(xiāo)貨品提供充足的貨源保障,把熱銷(xiāo)貨品放在超市最容易接觸的位置,提供某些促銷(xiāo)優(yōu)惠等等。
再看另一個(gè)來(lái)自美國的零售商塔吉特的案例,它使用大數據進(jìn)行“懷孕趨勢分析”。通過(guò)對大量消費記錄的分析,塔吉特公司注意到,準媽媽很可能在懷孕第三個(gè)月的時(shí)候購買(mǎi)某種乳液,并陸續購買(mǎi)營(yíng)養品(如鈣、鎂、鋅等)。塔吉特公司找到了幾十種關(guān)聯(lián)物,通過(guò)這些關(guān)聯(lián)關(guān)系,預判客戶(hù)是否懷孕以及預產(chǎn)期的大概日期。在客戶(hù)懷孕的不同階段,該公司會(huì )向客戶(hù)推銷(xiāo)相應的產(chǎn)品或優(yōu)惠券。
前兩個(gè)案例,分別是典型的“小數據”分析和“大數據”分析。大數據不僅是數據量大,同時(shí)數據種類(lèi)多;不是數據的抽樣,而是數據的全集;不是與目標有因果關(guān)系的數據,而是所有有關(guān)聯(lián)的數據。與傳統的數據分析相比,大數據可以被用來(lái)開(kāi)發(fā)新產(chǎn)品和新型服務(wù),其價(jià)值越來(lái)越受到關(guān)注。
為什么在幾年前,沒(méi)有人收集和利用全部的數據,再進(jìn)行大數據分析呢?除了成本上的考慮,還存在另一個(gè)問(wèn)題:傳統上,人們是基于單一“業(yè)務(wù)”去構建系統,而不是基于“數據”去構建系統。例如,某超市要建設一個(gè)CRM系統,IT部門(mén)會(huì )基于“客戶(hù)管理”這個(gè)業(yè)務(wù)采購軟硬件,所有建設都圍繞“客戶(hù)管理”,很少考慮開(kāi)放、兼容等特性;如果想再上一套“行為分析”系統,則圍繞“行為分析”這個(gè)業(yè)務(wù)去采購軟、硬件。當需要把兩個(gè)系統的數據進(jìn)行統一分析時(shí),由于兩套系統不兼容,需要中間件來(lái)轉接、編譯,因此兩套系統各自要進(jìn)行二次開(kāi)發(fā)以實(shí)現兼容,使得操作難度變高,造成有價(jià)值的“數據”被困在了“系統”這個(gè)孤島里。因此在規劃初期,就應充分考慮到數據的流動(dòng)性、系統的兼容性,考慮到數據將會(huì )被各種系統多次使用的情況。
也許有人會(huì )說(shuō):這樣的系統規劃會(huì )非常復雜,構建成本太高,很難把系統的模型和方案想清楚。我們再來(lái)看看互聯(lián)網(wǎng)公司。大型互聯(lián)網(wǎng)公司這幾年在構建IT系統時(shí),都會(huì )采用標準架構:如X86服務(wù)器、標準化的網(wǎng)絡(luò )協(xié)議、開(kāi)源的數據庫、分布式存儲等等。因為只有這樣,才能夠通過(guò)統一的硬件和軟件平臺來(lái)承載各種各樣的業(yè)務(wù)。比如微信、QQ、游戲、視頻等業(yè)務(wù)都是承載在同一個(gè)平臺上,所有數據的流動(dòng)在基礎設施這個(gè)維度里都是自由的。所以我們看到如騰訊、阿里巴巴等互聯(lián)網(wǎng)公司上線(xiàn)新業(yè)務(wù)的速度非???,而且能夠根據用戶(hù)各種網(wǎng)絡(luò )行為,判斷互聯(lián)網(wǎng)用戶(hù)感興趣的“熱點(diǎn)”,在某項業(yè)務(wù)上再疊加新服務(wù)。這就是大數據的典型應用。
在構建了標準的硬件、軟件基礎設施之后,業(yè)務(wù)可以被逐步規劃,分階段上線(xiàn),但是所有的業(yè)務(wù)架構、程序接口,都應按照標準基礎設施的統一要求進(jìn)行設計開(kāi)發(fā)。大數據本身是“業(yè)務(wù)”,需要建設者用更多的時(shí)間去摸索業(yè)務(wù)模型,在實(shí)踐中完善新技術(shù),把現有的封閉的系統逐步改良為開(kāi)放的標準化架構。
從IT的發(fā)展趨勢看,大數據時(shí)代是在云計算建設成熟之后到來(lái)的,大多數互聯(lián)網(wǎng)公司的建設歷程也遵循了這種規律。云計算將帶來(lái)標準、統一的IT架構,消除割裂和信息孤島,并且簡(jiǎn)化大規模IT部署和運維的復雜程度,而這些都是大數據分析系統建設的前提。
杭州華三通信技術(shù)有限公司(以下簡(jiǎn)稱(chēng)華三通信)的云計算方案,就是要實(shí)現IT基礎設施的標準化、智能化,為大數據分析提供更加智能靈活的基礎設施平臺。例如統一的云管理平臺CSM,將所有IT資源拉通管理,并且把溝通過(guò)程流程化;X86服務(wù)器+虛擬化軟件CAS,屏蔽底層硬件服務(wù)器間的差異,使虛擬機應用可以在不同的物理服務(wù)器間飄移;SDN網(wǎng)絡(luò )虛擬化技術(shù),使網(wǎng)絡(luò )真正成為資源池,由上層應用調用;VSAN分布式存儲,屏蔽了底層硬件存儲間的壁壘,存儲數據可以分布在不同的物理服務(wù)器的硬盤(pán)上。
身處大數據時(shí)代的前夕,伴隨著(zhù)云計算建設的浪潮,我們已經(jīng)清晰地看到云計算和大數據的價(jià)值,也在期待它們?yōu)槲覀儙?lái)更多的改變,更多的驚喜。
評論