數據倉庫在移動(dòng)通信企業(yè)經(jīng)營(yíng)分析系統中的應用
1.2.4 樣本數據庫
樣本數據庫是數據倉庫的一種有趣的、混雜的形式,它只是真實(shí)檔案數據或輕度綜合數據的子集。術(shù)語(yǔ)“樣本”源于它是更大數據庫的子集(即樣本)這一事實(shí),并需要進(jìn)行定期刷新。
1.2.5 數據倉庫中的數據組織
數據倉庫中最簡(jiǎn)單最常用的數據組織形式也許是簡(jiǎn)單堆積結構,從操作型環(huán)境中取出每天的事務(wù)處理,然后綜合成數據倉庫記錄,這個(gè)綜合可根據顧客、帳戶(hù)或者任何組織到數據倉庫的主題領(lǐng)域來(lái)進(jìn)行。這里的事務(wù)處理是以天來(lái)進(jìn)行綜合。數據通過(guò)與前面相同的處理方法從操作型環(huán)境輸入到數據倉庫環(huán)境中。只是在輪轉綜合文件中的數據才被輸入到不同的結構形式中。第一周的7天中的活動(dòng)被逐一綜合到7個(gè)每日相應的位置,到第八天,將7個(gè)每日位置的數據加到一起,并放人第一周的數據位置中。然后,第八天的每日總計加到第一個(gè)每日數據位置。
1.2.6 元數據
數據倉庫環(huán)境中一個(gè)重要方面是元數據。元數據是關(guān)于數據的數據。只要有程序和數據,元數據就是信息處理環(huán)境的一部分。但是在數據倉庫中,元數據扮演一個(gè)新的重要角色。也正因為有了元數據,可以最有效地利用數據倉庫。元數據使得最終用戶(hù)/DSS分析員能夠探索各種可能性。元數據在數據倉庫的上層,并且記錄數據倉庫中對象的位置。
1.2.7 數據索引與監視
數據倉庫的靈魂就在于靈活性和對數據的不可預測的訪(fǎng)問(wèn)。數據倉庫中的數據如果不能方便和有效地檢索,那么建立數據倉庫這項工作就不成功。當然,設計者可以利用許多方法來(lái)使數據盡可能的靈活,例如利用雙重粒度級和數據分割。但這些技術(shù)一定要支持方便的索引,如二級索引、稀疏索引、動(dòng)態(tài)索引、臨時(shí)索引等。而且建立和應用索引的費用不能太高。同時(shí)數據倉庫中的數據也應能隨意地被監視,監視數據的費用也不能太高,過(guò)程不能太復雜,監視程序在需要時(shí)應能隨時(shí)運行。
1.2.8 數據周期
所謂數據周期是指從操作型環(huán)境數據發(fā)生改變起,到這個(gè)變化反映到數據倉庫中所用的時(shí)間。原則上從操作型環(huán)境知道數據的改變到這個(gè)變化反映到數據倉庫中至少應該經(jīng)歷24 h。沒(méi)有必要急于把這個(gè)變化轉入信息倉庫中去,原因在于如果操作型環(huán)境與數據倉庫相互之間結合得越緊密,那么所需的費用就越昂貴,技術(shù)也越復雜。24 h的時(shí)間間隔以現有技術(shù)來(lái)說(shuō)將很容易被實(shí)現。更有說(shuō)服力的一個(gè)原因是,時(shí)間間隔給環(huán)境附加了一個(gè)特殊的限制。間隔24 h,使得在數據倉庫中不必做操作型處理;在操作型環(huán)境中不必做數據倉庫處理。時(shí)間間隔的另一個(gè)好處是在轉入數據倉庫之前,數據能達到穩定。
1.2.9 數據分析
數據分析技術(shù)是指一種能夠應用在數據倉庫基礎之上,進(jìn)行業(yè)務(wù)應用分析的數學(xué)方法。在現階段主要包括OLAP技術(shù)、數據挖掘技術(shù)、統計分析技術(shù)、聯(lián)機挖掘等內容。
OLAP技術(shù)也叫聯(lián)機分析處理。是使分析人員、管理人員或執行人員能夠從多種角度對從原始數據中轉化出來(lái)的、能夠真正為用戶(hù)所理解、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對數據的更加深入了解的一類(lèi)軟件技術(shù)。
OLAP技術(shù)的技術(shù)核心就是維。如地理維、時(shí)間維等。維也可以分層次的。例如時(shí)間維可以向下分成日期、月份、季節、年等不同的層次;地理維可以向下劃分為區、省、市、縣、鄉等層次。
2 數據處理方案的選擇
對于移動(dòng)通信企業(yè)而言,數據倉庫的實(shí)施是對移動(dòng)經(jīng)營(yíng)分析管理的一次提升,因此要謹慎地選擇適合需要的數據倉庫數據處理與分析產(chǎn)品。目前主流數據倉庫的數據處理專(zhuān)業(yè)工具有:CA,NCR,IBM,Informix(IBM),Oracle和SAS。
經(jīng)過(guò)采樣測試和對用戶(hù)的調查,SAS效率較其他工具高,ETL的效果較好,適合經(jīng)營(yíng)分析領(lǐng)域的數據處理。在國際學(xué)術(shù)界有條不成文的規定:凡是SAS統計分析的結果,可以不說(shuō)明算法。通過(guò)對SAS 8.0的使用,發(fā)現SAS的人機對話(huà)界面很友好,既可以通過(guò)編程進(jìn)行數據的處理,也可以通過(guò)在對話(huà)框選擇命令來(lái)間接得到數據處理代碼。但SAS數據處理的劣勢是它的數據倉庫是一種比較落后的數據集模式。
由于SAS數據處理的效率性能和相關(guān)功能及對經(jīng)營(yíng)分析的針對性都優(yōu)于其他專(zhuān)業(yè)工具。最終決定選擇SAS作為數據處理的工具,為彌補SAS數據庫技術(shù)的落后,數據倉庫的存儲還是采用最流行的Oracle。
3 數據分析方案的選擇
市場(chǎng)上流行的主要有Cognos,Business Objects,Brio等數據倉庫前端分析工具。對于移動(dòng)通信企業(yè)經(jīng)營(yíng)分析系統,除了要有基本的旋轉、切片、鉆取功能等OLAP功能以外,關(guān)鍵是有功能強大完整的Web端。Brio可以支持Web/Intranet環(huán)境,并且報表生成速度快,支持多種數據導出格式,如excel,pdf,txt,html,csv等。其離線(xiàn)分析方式也保證了經(jīng)營(yíng)分析系統的性能不會(huì )受到用戶(hù)的增加而減弱。Brio在這些方面比較合適企業(yè)經(jīng)營(yíng)分析系統的要求,所以我們選擇Brio作為移動(dòng)通信企業(yè)經(jīng)營(yíng)分析系統的數據分析工具。
評論