基于電子商務(wù)中的數據挖掘技術(shù)研究
國際互聯(lián)網(wǎng)絡(luò )的日益普及,各種形式的信息大量地產(chǎn)生和收集導致了信息爆炸?,F代社會(huì )的競爭趨勢要求對這些信息進(jìn)行實(shí)時(shí)的和深層次的分析,雖然現在有了更強大的信息存儲和檢索系統.但是用戶(hù)在分析和使用所擁有的信息方面卻變得越來(lái)越困難。如何對大量信息進(jìn)行有效組織利用,使用戶(hù)能夠從大量繁雜的信息中找出真正有價(jià)值的信息和知識,幫助企業(yè)制定更好的營(yíng)銷(xiāo)策略。信息處理技術(shù)有了新的應用研究課題――數據挖掘。主要討論采用數據挖掘技術(shù)在新興的電子商務(wù)領(lǐng)域的應用研究。
2 電子商務(wù)與數據挖掘簡(jiǎn)介
電子商務(wù)是指個(gè)人或企業(yè)通過(guò)Internet網(wǎng)絡(luò ),采用數字化電子方式進(jìn)行商務(wù)數據交換和開(kāi)展商務(wù)業(yè)務(wù)活動(dòng)。目前國內已有網(wǎng)上商情廣告、電子票據交換、網(wǎng)上訂購、網(wǎng)上銀行、網(wǎng)上支付結算等多種類(lèi)型的電子商務(wù)形式。電子商務(wù)正以其成本低廉、方便、快捷、安全、可靠、不受時(shí)間和空間的限制等突出優(yōu)點(diǎn)而逐步在全球流行。服務(wù)范圍可歸類(lèi)為:①商業(yè)一商業(yè)(B2B),②商業(yè)一消費者(B2C),③商業(yè)一政府(B2G)。
數據挖掘是通過(guò)挖掘數據倉庫中存儲的大量數據,從中發(fā)現有意義的新的關(guān)聯(lián)模式和趨勢的過(guò)程。從商業(yè)的角度定義,數據挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數據庫中的大量業(yè)務(wù)數據進(jìn)行抽取、轉換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數據。數據挖掘最吸引人的地方是它能建立預測模型而不是回顧型的模型。利用功能強大的數據挖掘技術(shù),可以使企業(yè)把數據轉化為有用的信息幫助決策,從而在市場(chǎng)競爭中獲得優(yōu)勢地位。數據挖掘與傳統的數據分析的不同是在沒(méi)有明確假設的前提下去挖掘信息、發(fā)現知識。數據挖掘所得到的信息應具有先前未知、有效和可實(shí)用3個(gè)特征。
3 數據挖掘在電子商務(wù)中的作用
數據挖掘技術(shù)之所以可以服務(wù)電子商務(wù),是因為它能夠挖掘出活動(dòng)過(guò)程中的潛在信息以指導電子商務(wù)營(yíng)銷(xiāo)活動(dòng)。在電子商務(wù)中其作用有4個(gè)方面:
(1)挖掘客戶(hù)活動(dòng)規律,針對性的在電子商務(wù)平臺下以提供“個(gè)性化”的服務(wù)。
(2)可以在瀏覽電子商務(wù)網(wǎng)站的訪(fǎng)問(wèn)者中挖掘出潛在的客戶(hù)。
(3)優(yōu)化電子商務(wù)網(wǎng)站巾的信息導航,方便客戶(hù)瀏覽。
(4)通過(guò)電子商務(wù)訪(fǎng)問(wèn)者的活動(dòng)信息的挖掘,可以更加深入的了解客戶(hù)需求。
4 數據挖掘過(guò)程
電子商務(wù)中的數據挖掘的過(guò)程一般由3個(gè)主要的階段組成:數據準備、數據挖掘、結果解釋和評價(jià)。
(1)數據準備數據準備又可分為數據選取、數據預處理。數據選取的目的是確定發(fā)現任務(wù)的操作對象。即目標數據,是根據用戶(hù)的需要從原始數據庫中抽取的一組數據。數據預處理一般包括消除噪聲、推導計算缺值數據、消除重復記錄、完成數據類(lèi)型轉換f如把連續型數據轉換為離散型數據,以便于符號歸納;或是把離散性數據轉換為連續型數據,以便于神經(jīng)網(wǎng)絡(luò )計算)以及對數據降維f即從初始特征中找出真正有用的特征以減少數據挖掘要考慮的變量個(gè)數)。
(2)數據挖掘階段首先要確定數據挖掘的目標和挖掘的知識類(lèi)型。確定挖掘任務(wù)后,根據挖掘的知識類(lèi)型選擇合適的挖掘算法;最后實(shí)施數據挖掘操作,運用選定的挖掘算法從數據庫中抽取所需的知識。
(3)結果的解釋和評價(jià)數據挖掘階段發(fā)現的知識,經(jīng)過(guò)評估,可能存在冗余或無(wú)關(guān)的知識,這時(shí)需要將其剔除:也有可能知識不滿(mǎn)足用戶(hù)的要求,需要重復上述挖掘過(guò)程重新進(jìn)行挖掘。另外,由于數據挖掘最終要面臨用戶(hù).因此。還需要對所挖掘的知識進(jìn)行解釋?zhuān)砸环N用戶(hù)易于理解的方式(如可視化方式)供用戶(hù)所用。
可以看出,以上整個(gè)數據挖掘過(guò)程是不斷地循環(huán)和反復的,因而可以對所挖掘出來(lái)的知識不斷求精和深化。最終達到用戶(hù)所滿(mǎn)意的結果。
5 電子商務(wù)中數據挖掘的技術(shù)與方法
數據挖掘源于人工智能。它利用人工智能中成熟的技術(shù)和方法對經(jīng)過(guò)處理的數據進(jìn)行分析,其利用的技術(shù)方法越多,所得到的信息也就越精確。在電子商務(wù)中主要應用的數據挖掘技術(shù)和方法有:
(1)聚類(lèi)分析聚類(lèi)分析可在電子商務(wù)過(guò)程中從Web查找信息中聚集出具有相似特性的客戶(hù)。劃分出客戶(hù)群后,能夠幫助企業(yè)開(kāi)發(fā)和執行其市場(chǎng)策略,Web可根據客戶(hù)群提供特定的服務(wù)。
(2)關(guān)聯(lián)規則關(guān)聯(lián)規則挖掘是發(fā)現大量數據庫中集之間的關(guān)聯(lián)關(guān)系,這些關(guān)聯(lián)關(guān)系可以幫助許多商務(wù)決策的制定。
(3)分類(lèi)規則分類(lèi)是找出一個(gè)類(lèi)別的概念描述,它代表了這類(lèi)數據的整體信息,一般用規則或決策樹(shù)模式表示。其目的是把新的記錄分配到預先定義好的類(lèi)中。
(4)時(shí)間序列模式的發(fā)現按時(shí)間順序查看時(shí)間事件數據庫,從中找出另一個(gè)或多個(gè)相似的時(shí)序事件,通過(guò)時(shí)間序列搜索出重復發(fā)生概率較高的模式。發(fā)現序列模式便于進(jìn)行電子商務(wù)組織預測客戶(hù)的查找模式,從而對客戶(hù)進(jìn)行針對性的服務(wù)。在時(shí)序模式中,一個(gè)重要影響的方法是相似時(shí)序。
(5)偏差分析描述和分析數據的異?;驑O端現象,包括不規則數據、反常實(shí)例和觀(guān)測結果與期望值的偏離等。主要用于分析客戶(hù)異常行為、信用欺詐甄別和數據質(zhì)量控制。以及網(wǎng)絡(luò )安全管理和故障檢測等領(lǐng)域。
(6)預測與評價(jià)對歷史數據進(jìn)行綜合分析和歸納.推理出數據分布的時(shí)效性和規律性,從而對未來(lái)事件發(fā)展的趨勢和結果進(jìn)行預測和評估。
6 電子商務(wù)中挖掘信息的目標
(1)幫助企業(yè)確定營(yíng)銷(xiāo)機制在電子商務(wù)中,商業(yè)信息來(lái)自各個(gè)渠道,這些數據信息經(jīng)過(guò)數據挖掘處理技術(shù)進(jìn)行處理后,可從中得到用于特定消費群體或個(gè)人定向營(yíng)銷(xiāo)的決策信息,以確定電子商務(wù)的營(yíng)銷(xiāo)機制?;跀祿诰虻碾娮由虅?wù)營(yíng)銷(xiāo),常??梢韵蛳M者發(fā)出與以前的消費行為相關(guān)的推銷(xiāo)材料,數據挖掘的電子商務(wù)營(yíng)銷(xiāo)對于我國當前情況下的市場(chǎng)競爭具有啟發(fā)意義。經(jīng)??梢钥匆?jiàn)繁華商業(yè)街上一些廠(chǎng)商對行人不分對象的散發(fā)大量商品宣傳廣告。其結果是不需要的人隨手丟棄,而需要的人未必能夠得到。如果家電維修服務(wù)公司向在商店中剛購買(mǎi)家電的消費者郵寄維修服務(wù)廣告。藥品廠(chǎng)商向剛在醫院門(mén)診就醫的特定病人郵寄廣告,其效果肯定比漫無(wú)目的的營(yíng)銷(xiāo)效果要好很多。
評論