<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
關(guān) 閉

新聞中心

EEPW首頁(yè) > 工控自動(dòng)化 > 設計應用 > 基于網(wǎng)絡(luò )設備的網(wǎng)頁(yè)過(guò)濾的設計

基于網(wǎng)絡(luò )設備的網(wǎng)頁(yè)過(guò)濾的設計

作者: 時(shí)間:2011-03-25 來(lái)源:網(wǎng)絡(luò ) 收藏

  3.4 TF-IDF 權值計算

  TF-IDF 計算公式:


  其中TF(x,d)表示特征x在網(wǎng)頁(yè)d中出現的頻率,IDF(x)表示為,N是總共的訓練樣本數,df (x)為包含特征x 的樣本數。

  3.5 改進(jìn)的權值計算公式

  從TF-IDF 計算公式可以看出,TF-IDF 計算公式是將一個(gè)樣本簡(jiǎn)單的分解為若干特征,只是針對文本的內容,沒(méi)有從文本的結構組成上考慮各特征的權值。

  實(shí)際上,在一個(gè)HTML 結構文檔中,在之間,,以及一些其他的標簽之間出現的特征,相對于其他普通的正文,具有更重要的意義,因此對這些標簽之間的特征要給予比較大的權值,而對于其他普通的正文給予權重比較小??紤]到HTML 的這種結構化特性,對TF-IDF 權值計算進(jìn)行一些改進(jìn)。

  以下是設計的一個(gè)簡(jiǎn)單的位置——權值等級對應表,權值的選擇可由實(shí)際情況具體而定。

表1 特征位置與權值對應表

 特征位置與權值對應表

  一個(gè)詞在一個(gè)網(wǎng)頁(yè)中出現的頻率越高,表示該詞在這個(gè)網(wǎng)頁(yè)中更重要。根據IDF,一個(gè)詞的重要與包含它的網(wǎng)頁(yè)數量成反比。一個(gè)特征x 在第i 個(gè)等級中的頻率如下表示:


  其中Nxi 表示某個(gè)詞x 出現在等級i 中間的次數, Nx 表示詞x 出現在該網(wǎng)頁(yè)中總的次數。

  權值的計算:


  其中Wi 為特征等級為i 時(shí),對應的加權系數。

  3.6 KNN 算法

  K-近鄰法的原理:在訓練樣本集中,找出與待分類(lèi)的網(wǎng)頁(yè)相鄰最近的K 個(gè)訓練樣本,找出K 個(gè)近鄰中樣本數最多的類(lèi)別c,就判斷待分類(lèi)樣本為c 類(lèi)。這里采用相似度作為計算距離的依據,相似的計算根據兩個(gè)樣本之間的夾角的余弦值來(lái)判斷。


  根據此公式,計算出待測樣本x 與所有訓練樣本的距離,從而找出與x 距離最近的K 個(gè)訓練樣本,根據這K 個(gè)樣本的所屬類(lèi)別,確定待測樣本x 的所屬類(lèi)別。

  3.7 內容過(guò)濾流程

  為了不給用戶(hù)造成比較明顯的延遲,采用“第一次放過(guò)”的策略。先并不攔截該響應報文,只是復制一份應用層信息,在整個(gè)響應報文傳輸完成之后,對復制的一份完整報文進(jìn)行內容過(guò)濾操作;如果判斷報文內容是非法的,則將對應的請求報文的URL 信息添加到黑名單中,如果檢查認為是合法的,則允許該連接持續,并將URL 信息添加到白名單中。

  4 結語(yǔ)

  通過(guò)實(shí)驗分析,在過(guò)濾時(shí)間上,URL 過(guò)濾階段白名單匹配速度提高了53%,在黑名單的匹配中,速度提高了80%。在內容過(guò)濾階段,由于采用的“第一次放過(guò)”策略,不會(huì )給用戶(hù)帶來(lái)延遲。既能在一定程度滿(mǎn)足網(wǎng)絡(luò )延遲的要求,又能改善用戶(hù)的互聯(lián)網(wǎng)環(huán)境。但仍然存在一些需要改進(jìn)的地方:該過(guò)濾系統是部署在之上,作為網(wǎng)絡(luò )節點(diǎn),擔負著(zhù)繁重的數據交換任務(wù),考慮到這些,沒(méi)有對返回的報文進(jìn)行實(shí)時(shí)的分析,而是采用“第一次放過(guò)”的過(guò)濾策略;此外,采用向量空間模型來(lái)表示,其缺點(diǎn)在于特征項之間線(xiàn)性無(wú)關(guān)的假設,因此可以考慮特征項之間的關(guān)聯(lián)性等,對該文本表示模型進(jìn)行更加精確的表示。




上一頁(yè) 1 2 3 下一頁(yè)

關(guān)鍵詞: 網(wǎng)絡(luò )設備

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>