<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 電源與新能源 > 設計應用 > 基于特征選擇改進(jìn)LR-Bagging算法的電力欠費風(fēng)險居民客戶(hù)預測

基于特征選擇改進(jìn)LR-Bagging算法的電力欠費風(fēng)險居民客戶(hù)預測

作者:吳漾 朱州 時(shí)間:2017-03-29 來(lái)源:電子產(chǎn)品世界 收藏
編者按:本文從電力欠費風(fēng)險預測的角度出發(fā),提出了一種基于特征選擇改進(jìn)的LR-Bagging(即以邏輯回歸為基分類(lèi)器的Bagging集成學(xué)習)算法,其精髓在于每一個(gè)訓練的LR基分類(lèi)器的記錄和字段均通過(guò)隨機抽樣得到。且算法的終止迭代準則由AUC統計量的變化率決定。該改進(jìn)算法充分考慮了LR的強泛化能力、Bagging的高精確度,以及特征選擇帶來(lái)的LR基分類(lèi)器的多樣性、弱化的多重共線(xiàn)性與“過(guò)擬合”度,效果優(yōu)于單一LR模型。且最終的實(shí)驗表明,該改進(jìn)算法得到的電力欠費居民客戶(hù)風(fēng)險預測模型的準確性與有效性得到提升。

作者 吳漾 朱州 貴州電網(wǎng)有限責任公司信息中心(貴州 貴陽(yáng) 550003)

本文引用地址:http://dyxdggzs.com/article/201703/345948.htm

  吳漾(1984-),男,碩士,工程師,研究方向:電網(wǎng)信息化數據管理與數據分析管理;朱州,男,高級工程師,博士,研究方向:電網(wǎng)信息化建設與數據分析管理。

摘要:本文從電力欠費風(fēng)險預測的角度出發(fā),提出了一種基于改進(jìn)的LR-Bagging(即以邏輯回歸為基分類(lèi)器的)算法,其精髓在于每一個(gè)訓練的LR基分類(lèi)器的記錄和字段均通過(guò)隨機抽樣得到。且算法的終止迭代準則由統計量的變化率決定。該改進(jìn)算法充分考慮了LR的強泛化能力、Bagging的高精確度,以及帶來(lái)的LR基分類(lèi)器的多樣性、弱化的多重共線(xiàn)性與“過(guò)擬合”度,效果優(yōu)于單一LR模型。且最終的實(shí)驗表明,該改進(jìn)算法得到的電力欠費居民客戶(hù)風(fēng)險預測模型的準確性與有效性得到提升。

引言

  我國電力體制的深化改革為電力行業(yè)引入了市場(chǎng)機制[1],在有效實(shí)現電力資源優(yōu)化配置,提高電力資源生產(chǎn)和傳輸效率的同時(shí),也帶給電力企業(yè)更大的市場(chǎng)風(fēng)險,風(fēng)險的切實(shí)防范和規避對電力企業(yè)的重要性不言而喻。由于客戶(hù)欠費而產(chǎn)生的電費回收風(fēng)險一直是電力營(yíng)銷(xiāo)中存在的重大風(fēng)險之一。

  首先,國內學(xué)術(shù)界專(zhuān)業(yè)人士對于該問(wèn)題的研究起步較晚[3],主要集中于對電費回收風(fēng)險的現狀、影響因素、評價(jià)、有效性措施等內容的理論研究,缺乏以現實(shí)數據為基礎量化模型支撐[3-4];雖然也有許多文獻通過(guò)對電力客戶(hù)信用等級建模對其欠費風(fēng)險進(jìn)行預測[5],但模型不夠直接;隨著(zhù)大數據挖掘行業(yè)的蓬勃發(fā)展,近幾年出現了基于邏輯回歸、決策樹(shù)的數據挖掘算法的電力客戶(hù)欠費違約概率預測模型[6-7],但前者選取特征均為二分類(lèi)變量,適用性較低;后者選擇的模型變量雖較為多樣性,但模型的預測結果差強人意。而本文將借助電力客戶(hù)屬性數據和行為特征數據,盡可能挖掘每一個(gè)變量與欠費風(fēng)險的相關(guān)信息,建立一個(gè)更為準確、使用范圍更廣的客戶(hù)欠費風(fēng)險預測模型。

  其次,如今關(guān)于LR的文章或者關(guān)于的文章有很多,但是基于的Bagging算法的應用相對較少,通過(guò)對基于Bagging算法做出改進(jìn)的相關(guān)文獻基本沒(méi)有。簡(jiǎn)單來(lái)說(shuō),本文算法為多個(gè)不同的的集合,其核心在于每一個(gè)訓練的LR基分類(lèi)器的樣本和特征均通過(guò)bootstrap技術(shù)得到。充分考慮了LR的強泛化能力、Bagging的高精確度,以及特征選擇帶來(lái)的LR基分類(lèi)器的多樣性,使得該算法在精度、實(shí)用性上優(yōu)于單一算法,后文的應用恰好證明了這一點(diǎn)。鑒于該算法的這一優(yōu)越性,可嘗試將其應用于其他領(lǐng)域的分類(lèi)挖掘問(wèn)題。

  本研究的意義體現在兩個(gè)方面:一是對于電力欠費客戶(hù)風(fēng)險預測這一模塊的進(jìn)一步研究;二是基于特征選擇的以L(fǎng)R為基分類(lèi)器的Bagging算法的改進(jìn)的借鑒和推廣價(jià)值。

1 基于LR分類(lèi)器的Bagging算法的改進(jìn)

1.1 LR模型及其基本理論

  邏輯回歸(LogisticRegression,LR)模型是一種分類(lèi)評定模型,是離散選擇法模型之一。它主要是用于對受多因素影響的定性變量的概率預測,并根據預測的概率對目標變量進(jìn)行分類(lèi)。邏輯回歸可分為二項邏輯回歸和多項邏輯回歸,類(lèi)別的差異取決于目標變量類(lèi)別個(gè)數的多少。目前,LR模型已經(jīng)廣泛應用于社會(huì )學(xué)、生物統計學(xué)、臨床、數量心理學(xué)、市場(chǎng)營(yíng)銷(xiāo)等統計實(shí)證分析中,且以目標變量為二分類(lèi)變量為主。

  1.1.1 Logistic函數

  假設因變量只有1-0(例如“是”和“否”,“發(fā)生”和“不發(fā)生”)兩種取值,記為1和0。假設在p個(gè)獨立自變量作用下,y取1的概率是,取0的概率是1-P,則取1和取0的概率之比為,稱(chēng)為事件的優(yōu)勢比(odds),表示事件發(fā)生的概率相對于不發(fā)生的概率的強度。對odds取自然對數可得Logistic函數為:

(1)

  Logistic函數曲線(xiàn)如圖1所示。

  1.1.2 LR模型

  LR模型可以探究由于自變量的變化所能導致的因變量決策(選擇)的變化,因變量決策(選擇)的變化意味著(zhù)Logistic函數的變化。LR的基本形式為:

  因此有:

  1.1.4 LR模型的優(yōu)勢與不足

  LR模型具有很強的實(shí)用性,對比其他的分類(lèi)判別模型,LR具有以下兩點(diǎn)優(yōu)勢:

  (1)泛化能力較好,精度較高

  所謂泛化能力,是指機器學(xué)習算法對新鮮樣本的適應能力。由于LR模型的自變量多為取值范圍不設限的連續變量,該模型不僅可以在樣本內進(jìn)行預測,還可以對樣本外的數據進(jìn)行預測,泛化能力較好,而且精度較高。

  (2)能精確控制閾值,調整分類(lèi)類(lèi)別

  LR模型的求解結果是一個(gè)介于0和1間的概率值。這使分類(lèi)結果的多樣性成為了可能。正常情況下,每一次閾值的調整都會(huì )產(chǎn)生不同的分類(lèi)結果,便于對預測結果進(jìn)行比較和檢驗,克服了其他分類(lèi)算法分類(lèi)數量無(wú)法改變的局限。

  當然,LR作為回歸模型的特殊形式,也需要滿(mǎn)足經(jīng)典回歸模型的基本假設,違背這些假設顯然會(huì )影響模型的分類(lèi)效果,多重共線(xiàn)問(wèn)題就是目前面臨較多的問(wèn)題。同時(shí),邏輯回歸的性能受特征空間的影響很大,也不能很好地處理大量多類(lèi)特征或變量,這便是LR分類(lèi)器的缺點(diǎn)所在。

2

2.1 集成學(xué)習

  集成學(xué)習[8]是一種機器學(xué)習范式,它的基本思想是把多個(gè)學(xué)習器(通常是同質(zhì)的)集成起來(lái),使用多個(gè)模型(解決方案)來(lái)解決同一個(gè)問(wèn)題。因其個(gè)體學(xué)習器的高精度和個(gè)誤差均分布于不同的輸入空間,從而能達到顯著(zhù)地提高學(xué)習系統的泛化能力的效果。

  Breiman同時(shí)指出,要使得Bagging有效,基本學(xué)習器的學(xué)習算法必須是不穩定的,也就是說(shuō)對訓練數據敏感,且基本分類(lèi)器的學(xué)習算法對訓練數據越敏感,Bagging的效果越好。另外由于Bagging算法本身的特點(diǎn),使得Bagging算法非常適合用來(lái)并行訓練多個(gè)基本分類(lèi)器,這也是Bagging算法的一大優(yōu)勢[8]。

2.3 本文算法描述

  前文指出,一方面,學(xué)習器的穩定性,即對訓練數據的敏感性,很大程度上影響B(tài)agging算法的效果,其中原因在于差異性小的數據對穩定性較強的學(xué)習器無(wú)法很好產(chǎn)生作用,這將影響到基學(xué)習模型的多樣性,Bagging算法提高精確度的能力也將大大減弱,而LR模型的不穩定性能不突出;另一方面,LR對大特征空間的解釋效果并不理想,且越多的變量特征也將加大變量間多重共線(xiàn)的可能性,LR模型的顯著(zhù)性無(wú)法得到保障。

  由于上述兩點(diǎn)原因,本文提出了一種基于特征選擇的LR-Bagging(基分類(lèi)器為L(cháng)R的Bagging算法)的改進(jìn)算法。該算法的精髓在于對每一個(gè)LR進(jìn)行訓練的特征變量需要經(jīng)過(guò)有放回的隨機抽樣產(chǎn)生。如此改進(jìn)的目的在于通過(guò)減少或改變變量提高基LR分類(lèi)器的多樣性,減少變量間的多重共線(xiàn)性與過(guò)擬合問(wèn)題,同時(shí)還能較好保留LR與Bagging集成學(xué)習的優(yōu)點(diǎn)。

  (Area Under Curve)被定義為ROC曲線(xiàn)下的面積,它的取值范圍介于0.5到1之間,是比較分類(lèi)器間分類(lèi)效果優(yōu)劣的評價(jià)標準。越大,我們認為模型的分類(lèi)效果越好。一般情況下,,隨著(zhù)循環(huán)次數的增加,模型提取的數據信息量也會(huì )不斷增加,最后達到峰值,所以我們通??梢哉J為組合模型的效果趨于先不斷加強后保持穩定的過(guò)程。因此,我們把迭代的停止條件的設置為是合理的。



上一頁(yè) 1 2 下一頁(yè)

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>