數據倉庫概述與在通信運維系統中的應用
通信運營(yíng)維護的發(fā)展,一直與信息技術(shù)的發(fā)展水平密不可分。從最早期的計算機數據處理,到今天廣為使用的計算機數據分析。每一次信息技術(shù)的發(fā)展都會(huì )帶來(lái)通信運營(yíng)維護的變化。在其中,數據庫技術(shù)尤為重要。
數據庫系統直接和運營(yíng)維護系統的核心——運營(yíng)數據相關(guān),負責數據的收集、存儲、更新和運算。隨著(zhù)現代商用數據庫技術(shù)的發(fā)展,作為數據庫技術(shù)分支的數據倉庫技術(shù)為當前的運營(yíng)維護系統進(jìn)行進(jìn)一步的數據分析和應用提供了重要的技術(shù)基礎。如何使用數據倉庫,合理利用數據倉庫提供的能力為運營(yíng)系統服務(wù),往往成為運營(yíng)維護系統的重要問(wèn)題。
在這樣的背景下,本系列結合通信運營(yíng)維護的客觀(guān)需要,以重要的商用數據庫——DB2為例,主要闡述了當前重要的數據倉庫技術(shù),以及如何在通信運營(yíng)維護系統中去使用這些現代數據庫技術(shù)去支持運維工作。
一、數據庫和數據倉庫
數據庫已經(jīng)在信息技術(shù)領(lǐng)域有了廣泛的應用,我們社會(huì )生活的各個(gè)部門(mén),幾乎都有各種各樣的數據庫保存著(zhù)與我們的生活息息相關(guān)的各種數據。作為數據庫的一個(gè)分支,數據倉庫概念的提出,相對于數據庫從時(shí)間上就近得多。美國著(zhù)名信息工程專(zhuān)家 William Inmon 博士在90年代初提出了數據倉庫概念的一個(gè)表述,認為:“一個(gè)數據倉庫通常是一個(gè)面向主題的、集成的、隨時(shí)間變化的、但信息本身相對穩定的數據集合,它用于對管理決策過(guò)程的支持。”
這里的主題,是指用戶(hù)使用數據倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,如:收入、客戶(hù)、銷(xiāo)售渠道等;所謂面向主題,是指數據倉庫內的信息是按主題進(jìn)行組織的,而不是像業(yè)務(wù)支撐系統那樣是按照業(yè)務(wù)功能進(jìn)行組織的。
集成,是指數據倉庫中的信息不是從各個(gè)業(yè)務(wù)系統中簡(jiǎn)單抽取出來(lái)的,而是經(jīng)過(guò)一系列加工、整理和匯總的過(guò)程,因此數據倉庫中的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
隨時(shí)間變化,是指數據倉庫內的信息并不只是反映企業(yè)當前的狀態(tài),而是記錄了從過(guò)去某一時(shí)點(diǎn)到當前各個(gè)階段的信息。通過(guò)這些信息,可以對企業(yè)的發(fā)展歷程和未來(lái)趨勢做出定量分析和預測。
二、數據倉庫的應用
單純從定義出發(fā),可能會(huì )把數據倉庫簡(jiǎn)單地理解為僅僅是一個(gè)大型的數據存儲機制,是一個(gè)靜態(tài)的概念。實(shí)際上,數據倉庫更像一個(gè)過(guò)程,這個(gè)過(guò)程涉及數據的收集、整理和加工,生成決策所需要的信息,并且最終把這些信息提供給需要這些信息的使用者,供他們做出改善業(yè)務(wù)經(jīng)營(yíng)的正確決策。數據倉庫的重點(diǎn)與要求就是能夠準確、安全、可靠地從業(yè)務(wù)系統中取出數據,經(jīng)過(guò)加工轉換成有規律信息之后,供管理人員進(jìn)行分析使用。因此,數據倉庫是一個(gè)動(dòng)態(tài)的過(guò)程,它的基礎,就是現代的數據庫技術(shù)。
單講概念,有些晦澀。任何技術(shù)都是為應用服務(wù)的,結合應用可以很容易地理解。以通信運維系統為例,數據庫是事務(wù)系統的數據平臺,客戶(hù)打的每一個(gè)電話(huà),都會(huì )寫(xiě)入數據庫,被記錄下來(lái),這里,可以簡(jiǎn)單地理解為用數據庫記帳。數據倉庫是分析系統的數據平臺,它從事務(wù)系統獲取數據,并做匯總、加工,為決策者提供決策的依據。比如,某地區某類(lèi)用戶(hù)一個(gè)月打了多少個(gè)電話(huà),都是多長(cháng)時(shí)間的,發(fā)了多少短信,該用戶(hù)當前話(huà)費余額是多少。如果通話(huà)時(shí)間很長(cháng),而短信很少,那么該用戶(hù)就是一個(gè)偏語(yǔ)音通話(huà)的客戶(hù)了。
顯然,電話(huà)和短信的業(yè)務(wù)量是巨大的,通常以百萬(wàn)甚至千萬(wàn)來(lái)計算。事務(wù)系統是實(shí)時(shí)的,這就要求時(shí)效性,客戶(hù)打一個(gè)電話(huà)要等十幾秒肯定是無(wú)法忍受的,這就要求數據庫只能存儲很短一段時(shí)間的數據。而分析系統是事后的,它要提供關(guān)注時(shí)間段內所有的有效數據。這些數據是海量的,匯總計算起來(lái)也要慢一些,但是,只要能夠提供有效的分析數據就達到目的了。
從上面的例子可以看出,數據庫是為捕獲數據而設計,數據倉庫是為分析數據而設計,它的兩個(gè)基本的元素是維表和事實(shí)表。維是看問(wèn)題的角度,比如通話(huà)時(shí)間(什么時(shí)候打的電話(huà)),業(yè)務(wù)類(lèi)型(語(yǔ)音通話(huà),短信息,數據通信)維表放的就是這些東西的定義,事實(shí)表里放著(zhù)要查詢(xún)的數據。
三、數據倉庫的特點(diǎn)
數據倉庫,是在數據庫已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數據資源、為了決策需要而產(chǎn)生的,它并不是所謂的“大型數據庫”。數據倉庫的方案建設的目的,是為前端查詢(xún)和分析作為基礎,由于有較大的冗余,所以需要的存儲也較大。為了更好地為前端應用服務(wù),數據倉庫往往有如下幾點(diǎn)特點(diǎn):
1. 效率足夠高。數據倉庫的分析數據一般分為日、周、月、季、年等,可以看出,日為周期的數據要求的效率最高,要求24小時(shí)甚至12小時(shí)內,客戶(hù)能看到昨天的數據分析。由于有的企業(yè)每日的數據量很大,設計不好的數據倉庫經(jīng)常會(huì )出問(wèn)題,延遲1-3日才能給出數據,顯然不行的。
2. 數據質(zhì)量。數據倉庫所提供的各種信息,肯定要準確的數據,但由于數據倉庫流程通常分為多個(gè)步驟,包括數據清洗,裝載,查詢(xún),展現等等,復雜的架構會(huì )更多層次,那么由于數據源有臟數據或者代碼不嚴謹,都可以導致數據失真,客戶(hù)看到錯誤的信息就可能導致分析出錯誤的決策,造成損失,而不是效益。
3. 擴展性。之所以有的大型數據倉庫系統架構設計復雜,是因為考慮到了未來(lái)3-5年的擴展性,這樣的話(huà),未來(lái)不用太快花錢(qián)去重建數據倉庫系統,就能很穩定運行。主要體現在數據建模的合理性,數據倉庫方案中多出一些中間層,使海量數據流有足夠的緩沖,不至于數據量大很多,就運行不起來(lái)了。
從上面的介紹中可以看出,數據倉庫技術(shù)可以將企業(yè)多年積累的數據喚醒,不僅為企業(yè)管理好這些海量數據,而且挖掘數據潛在的價(jià)值,從而成為通信企業(yè)運營(yíng)維護系統的亮點(diǎn)之一。正因為如此,
廣義的說(shuō),基于數據倉庫的決策支持系統由三個(gè)部件組成:數據倉庫技術(shù),聯(lián)機分析處理技術(shù)和數據挖掘技術(shù),其中數據倉庫技術(shù)是系統的核心,在這個(gè)系列后面的文章里,將圍繞數據倉庫技術(shù),介紹現代數據倉庫的主要技術(shù)和數據處理的主要步驟,討論在通信運營(yíng)維護系統中如何使用這些技術(shù)為運營(yíng)維護帶來(lái)幫助。
評論