基于改進(jìn)平衡Winnow算法的短信過(guò)濾系統
3 系統反饋
Winnow 是一種在線(xiàn)學(xué)習的、以錯誤為驅動(dòng)的分類(lèi)器, 適于結合增量式學(xué)習來(lái)解決自適應問(wèn)題, 實(shí)現用戶(hù)的個(gè)性化要求。平衡Winnow 算法是基本W(wǎng)innow 算法的另外一種形式, 同樣具有在線(xiàn)更新能力。在分類(lèi)器訓練過(guò)程中, 對錯分的短信通過(guò)α 和β 更新類(lèi)別權重向量,實(shí)現對分類(lèi)器的更新, 平衡Winnow 算法中w+和w-的雙向調節, 使算法的訓練速度更快, 適合于對分類(lèi)實(shí)時(shí)性要求較高的短信過(guò)濾系統。
4 實(shí)驗資源及分析與*價(jià)
本文在自建短信語(yǔ)料庫的基礎上完成對比實(shí)驗, 其中正常短信1 892 條, 垃圾短信270 條, 將短信語(yǔ)料庫隨機分成5 等份, 其中4 份用于訓練樣本,1 份作為測試樣本。
4.1 *價(jià)指標
分類(lèi)系統*價(jià)指標如下, 包括兩類(lèi)短信各自的準確率(precision) 和召回率(recall) , 由于系統目標是垃圾短信過(guò)濾, 于是增加了針對垃圾短信的綜合*價(jià)指標(F1):
F1=(2×準確率×召回率)/( 準確率+召回率)。
4.2 實(shí)驗結果分析
(1) 實(shí)驗1: 探討改進(jìn)的特征權重計算方法對實(shí)驗結果的影響。實(shí)驗結果如表1 所示。
表1 特征權重計算方法對實(shí)驗結果的影響。

其中測試樣本中正常短信被誤分為垃圾短信條數為22 條, 正常短信召回率為94.2%; 垃圾短信被誤分為正常短信8 條, 準確率僅為67.7%。
(2) 實(shí)驗2: 統一參數和取固定的閾值θ 之后對實(shí)驗結果的影響。該實(shí)驗中?。?alpha;=1.5 、β=1/1.5 、θ=15 。實(shí)驗結果如表2 所示。
表2 選定參數對實(shí)驗結果的影響

其中測試樣本中正常短信被誤分為垃圾短信條數為18 條, 正常短信召回率為96.1%; 而測試用的垃圾短信正確識別了44 條, 準確率為71.0%。由此可見(jiàn), 參數對實(shí)驗結果的影響不大。
(3) 實(shí)驗3: 去除野點(diǎn)對實(shí)驗結果的影響。實(shí)驗結果如表3 所示。
表3 去除野點(diǎn)對實(shí)驗結果的影響。

從實(shí)驗結果分析, 僅有12 條正常短信和8 條垃圾短信被錯誤分類(lèi)。通過(guò)去除野點(diǎn), 發(fā)現不僅緩減了抖動(dòng)現象, 而且提高了分類(lèi)器的分類(lèi)性能及正常短信的召回率。
Balanced Winnow 在訓練速度和分類(lèi)速度上具有較大優(yōu)勢, 所以具有更高的實(shí)用價(jià)值, 非常適合短信過(guò)濾的要求。另外,Winnow 作為一種在線(xiàn)學(xué)習方法, 在訓練集合不斷擴大的情況下能夠快速對分類(lèi)器進(jìn)行更新。正是基于Winnow 不斷學(xué)習、不斷調整的機制, 使其非常適合用戶(hù)自己定制需要的分類(lèi)標準。隨著(zhù)用戶(hù)不斷地反饋調整,整個(gè)系統會(huì )表現出越來(lái)越好的效果。本文引用地址:http://dyxdggzs.com/article/156764.htm
評論