<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > Web文檔聚類(lèi)中k-means算法的改進(jìn)

Web文檔聚類(lèi)中k-means算法的改進(jìn)

作者：時(shí)間：2011-03-29 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

　　利用向量空間模型對文檔進(jìn)行聚類(lèi)只能根據文檔的二種信息:(1)文檔中每個(gè)特征詞出現的頻率;(2)文檔的長(cháng)度。由于文檔長(cháng)度與文檔所屬的類(lèi)別之間的關(guān)系不大,因此可以把所有的文檔長(cháng)度進(jìn)行歸一化處理,從而使文檔向量具有統一的特征維數m。

　　其中:m為特征向量維數,α_k為二個(gè)文檔對應特征詞條的四位碼字的十進(jìn)制數值差的絕對值。由于這種相似性的計算使用的是整數,所以計算速度和精度得到一定的提高。

　　可以利用簡(jiǎn)單的示例驗證公式(5)的合理性。當二個(gè)文檔完全相似時(shí),sim(d_i,d_j)的值等于1,而二個(gè)文檔完全不同時(shí)它的值為0。這種方法不僅反應了文檔之間的差異,而且定量地描述了這種差異性,從而為文檔的聚類(lèi)提供了依據。下面通過(guò)對具體的Web文檔進(jìn)行實(shí)驗并進(jìn)一步地驗證。

3實(shí) 驗

　　實(shí)驗用的文檔是從搜狐的中文網(wǎng)站上獲取的娛樂(lè )類(lèi)文檔,選用其中的1500篇。對這1500篇文檔進(jìn)行手工分類(lèi),如表1所示共分為10類(lèi)。

　　衡量信息檢索性能的召回率和精度也是衡量分類(lèi)算法效果的常用指標。然而聚類(lèi)過(guò)程中并不存在自動(dòng)分類(lèi)類(lèi)別與手工分類(lèi)類(lèi)別確定的一一對應關(guān)系,因此無(wú)法像分類(lèi)一樣直接以精度和召回率作為評價(jià)標準。為此本文選擇了平均準確率作為評價(jià)的標準。平均準確率通過(guò)考察任意二篇文章之間類(lèi)屬關(guān)系是否一致來(lái)評價(jià)聚類(lèi)的效果。

　　試驗中對使用公式(3)和(5)的改進(jìn)k-means算法和原k-means算法的平均準確度進(jìn)行了比較,實(shí)驗結果如表2所示。

　　實(shí)驗結果表明,改進(jìn)后的k-means算法與原k-means算法在運行速度上基本相同甚至略快,平均準確度則比原算法有了普遍提高,尤其在正確指定聚類(lèi)數k時(shí),平均準確度提高了近7%,說(shuō)明此算法具有較高的準確性。由于實(shí)驗中使用的文檔集很小,所以改進(jìn)的算法優(yōu)勢不很明顯。

4結束語(yǔ)

　　本文對k-means算法進(jìn)行了改進(jìn)。根據不同位置的特征詞條對文檔內容的不同決定程度,提出一種新的文檔特征詞條的權重評價(jià)函數,并在此基礎上提出一種文檔相似性的度量方法。實(shí)驗表明改進(jìn)后的算法不僅保留了原k-means算法效率高的優(yōu)點(diǎn),而且在平均準確度方面比原算法有了較大提高。實(shí)驗還表明,k-means算法要依賴(lài)原始聚類(lèi)數k的選擇。如何為初始文檔集選擇合適的聚類(lèi)數k以及進(jìn)一步提高平均準確度是今后改進(jìn)k-means算法的主要研究方向。

上一頁(yè) 1 2 3 下一頁(yè)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 改進(jìn) 算法 k-means 文檔 Web

評論

相關(guān)推薦

SONY G3F-K電源-1

設計方案 G3F-K 電源 | 2009-07-06

單片機ADC常用的十大濾波算法（C語(yǔ)言）

單片機 ADC 濾波算法 C語(yǔ)言 | 2023-05-23

蘋(píng)果發(fā)布DeepPCR機器學(xué)習算法：加速神經(jīng)網(wǎng)絡(luò )的推理和訓練

蘋(píng)果 DeepPCR 機器學(xué)習算法神經(jīng)網(wǎng)絡(luò ) | 2023-12-20

針對5V PIC24F K系列的Microstick開(kāi)發(fā)工具

視頻 Microchip Microchip開(kāi)發(fā)工具 Microstick PIC24F K | 2013-07-11

改進(jìn)的ZCT-PWM變換器拓撲

設計方案改進(jìn) ZCT-PWM 變換器拓撲 | 2009-07-06

[轉帖]us/os就緒表的維護算法分析

amine | 2002-05-17

數字PID控制算法之一

資源下載 PID PID控制算法 | 2007-12-28

今日下載區新增多款AVR單片機開(kāi)發(fā)工具及文檔

Gao | 2002-06-04

[電子文檔]ARM Architecture Reference Manual

amine | 2002-05-18

軟件項目文檔模板

資源下載軟件文檔模板 | 2008-01-03

加密算法之MD5算法

資源下載加密算法加密算法 MD5算法 | 2007-02-16

改進(jìn)的ZVT-PWM變換器拓撲

設計方案改進(jìn) ZVT-PWM 變換器拓撲 | 2009-07-06

今日上傳e-ARM全部文檔至本站下載區

Gao | 2002-07-05

基于ELM改進(jìn)K-SVD算法的多特征融合物體成像識別

智能計算 202308 K-SVD算法算法改進(jìn) 圖像識別 | 2023-08-22

easyarm2210web服務(wù)器

資源下載 web web服務(wù)器 easyarm2210 | 2008-01-21

變步長(cháng)自適應盲源分離算法的設計研究

智能計算 202306 盲源分離算法自適應步長(cháng) 收斂穩態(tài)失調 | 2023-07-07

SHIPT算法擠壓了外包工人如何對雇主進(jìn)行審計

智能計算 SHIPT 算法算法管理 | 2024-07-04

硬件開(kāi)發(fā)文檔規范

嵌入式系統硬件開(kāi)發(fā) 文檔 | 2024-04-24

GDB在線(xiàn)文檔鏈接(老站轉)

amine | 2002-05-28

SONY G3F-K電源-2

設計方案 G3F-K 電源 | 2009-07-06

用32位ARM處理器打造Different. Smarter. Better的解決方案

視頻 Freescale ARM Cortex-M0+ Kinetis L Cortex-M4 Kinetis K eepw會(huì )展 | 2012-10-31

超強整理！電機控制算法

電機算法 BLDC | 2024-05-21

PID算法

資源下載 PID 算法誤差 | 2007-02-16

改進(jìn)的硬開(kāi)關(guān)斬波電路中的IGBT關(guān)斷電壓波形和斬波電路

設計方案改進(jìn) 開(kāi)關(guān) 斬波中的關(guān)斷電壓波形 | 2009-07-06

單片機的數字濾波算法

嵌入式系統單片機濾波算法數字濾波 | 2023-11-21

PID算法原理介紹

PID 算法工業(yè)控制調節器 | 2023-11-28

嵌入式開(kāi)發(fā)者都該了解的十大算法

嵌入式開(kāi)發(fā)者算法 | 2024-07-16

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>