<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > Web文檔聚類(lèi)中k-means算法的改進(jìn)

Web文檔聚類(lèi)中k-means算法的改進(jìn)

作者：時(shí)間：2011-03-29 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

介紹了Web文檔聚類(lèi)中普遍使用的、基于分割的k-means算法,分析了k-means算法所使用的向量空間模型和基于距離的相似性度量的局限性,從而提出了一種改善向量空間模型以及相似性度量的方法。

本文引用地址：http://dyxdggzs.com/article/150916.htm

　　關(guān)鍵詞: 文檔聚類(lèi) k-means算法向量空間模型相似性度量

　　Internet的快速發(fā)展使得Web上電子文檔資源在幾年間呈爆炸式增長(cháng),與數據庫中結構化的信息相比,非結構化的Web文檔信息更加豐富和繁雜。如何充分有效地利用Web上豐富的文檔資源,使用戶(hù)能夠快速有效地找到需要的信息已經(jīng)成為迫切需要解決的問(wèn)題。

　　聚類(lèi)能夠在沒(méi)有訓練樣本的條件下自動(dòng)產(chǎn)生聚類(lèi)模型。作為數據挖掘的一種重要手段,聚類(lèi)在Web文檔的信息挖掘中也起著(zhù)非常重要的作用。文檔聚類(lèi)是將文檔集合分成若干個(gè)簇,要求簇內文檔內容的相似性盡可能大,而簇之間文檔的相似性盡可能小。文檔聚類(lèi)可以揭示文檔集合的內在結構,發(fā)現新的信息,因此廣泛應用于文本挖掘與信息檢索等方面。

　　文檔聚類(lèi)算法一般分為分層和分割二種,普遍采用的是基于分割的k-means算法。

　　k-means算法具有可伸縮性和效率極高的優(yōu)點(diǎn),從而被廣泛地應用于大文檔集的處理。針對k-means算法的缺點(diǎn),許多文獻提出了改進(jìn)方法,但是這些改進(jìn)大多以犧牲效率為代價(jià),且只對算法的某一方面進(jìn)行優(yōu)化,從而使執行代價(jià)很高。

　　k-means算法中文檔表示模型采用向量空間模型(VSM),其中的詞條權重評價(jià)函數用TF*IDF表示。然而實(shí)際上這種表示方法只體現了該詞條是否出現以及出現多少次的信息,而沒(méi)有考慮對于該詞條在文檔中出現的位置及不同位置對文檔內容的決定程度不同這一情況。另一方面,k-means算法使用基于距離的相似性度量,然而文檔的特征向量一般超過(guò)萬(wàn)維,有時(shí)可達到數十萬(wàn)維,這種高維度使得這種度量方法不再有效。針對以上問(wèn)題,本文提出相應的解決方法,即改進(jìn)的k-means算法。實(shí)驗表明改進(jìn)后的k-means算法不僅保留了原算法效率高的優(yōu)點(diǎn),而且聚類(lèi)的平均準確度有了較大提高。

1k-means算法簡(jiǎn)介

　　k-means算法是一種基于分割的聚類(lèi)算法?；诜指畹木垲?lèi)算法可以簡(jiǎn)單描述為:對一個(gè)對象集合構造一個(gè)劃分,形成k個(gè)簇,使得評價(jià)函數最優(yōu)。不同的評價(jià)函數將產(chǎn)生不同的聚類(lèi)結果,k-means算法通常使用的評價(jià)函數為:

　　k-means算法的具體過(guò)程如下:

　　(1)選取k個(gè)對象作為初始的聚類(lèi)種子;

　　(2)根據聚類(lèi)種子的值,將每個(gè)對象重新賦給最相似的簇;

　　(3)重新計算每個(gè)簇中對象的平均值,用此平均值作為新的聚類(lèi)種子;

　　(4)重復執行(2)、(3)步,直到各個(gè)簇不再發(fā)生變化。

　　k-means算法的復雜度為:O(nkt)。其中:n為對象個(gè)數,k為聚類(lèi)數,t為迭代次數。通常k、t n,所以k-means算法具有很高的效率。同時(shí)k-means算法具有較強的可伸縮性,除了生成k個(gè)聚類(lèi)外,還生成每個(gè)聚類(lèi)的中心,因此被廣泛應用。

上一頁(yè) 1 2 3 下一頁(yè)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 改進(jìn) 算法 k-means 文檔 Web

評論

相關(guān)推薦

加密算法之MD5算法

資源下載加密算法加密算法 MD5算法 | 2007-02-16

基于ELM改進(jìn)K-SVD算法的多特征融合物體成像識別

智能計算 202308 K-SVD算法算法改進(jìn) 圖像識別 | 2023-08-22

[電子文檔]ARM Architecture Reference Manual

amine | 2002-05-18

PID算法原理介紹

PID 算法工業(yè)控制調節器 | 2023-11-28

用32位ARM處理器打造Different. Smarter. Better的解決方案

視頻 Freescale ARM Cortex-M0+ Kinetis L Cortex-M4 Kinetis K eepw會(huì )展 | 2012-10-31

改進(jìn)的ZVT-PWM變換器拓撲

設計方案改進(jìn) ZVT-PWM 變換器拓撲 | 2009-07-06

SONY G3F-K電源-1

設計方案 G3F-K 電源 | 2009-07-06

[轉帖]us/os就緒表的維護算法分析

amine | 2002-05-17

SONY G3F-K電源-2

設計方案 G3F-K 電源 | 2009-07-06

軟件項目文檔模板

資源下載軟件文檔模板 | 2008-01-03

GDB在線(xiàn)文檔鏈接(老站轉)

amine | 2002-05-28

easyarm2210web服務(wù)器

資源下載 web web服務(wù)器 easyarm2210 | 2008-01-21

超強整理！電機控制算法

電機算法 BLDC | 2024-05-21

蘋(píng)果發(fā)布DeepPCR機器學(xué)習算法：加速神經(jīng)網(wǎng)絡(luò )的推理和訓練

蘋(píng)果 DeepPCR 機器學(xué)習算法神經(jīng)網(wǎng)絡(luò ) | 2023-12-20

改進(jìn)的硬開(kāi)關(guān)斬波電路中的IGBT關(guān)斷電壓波形和斬波電路

設計方案改進(jìn) 開(kāi)關(guān) 斬波中的關(guān)斷電壓波形 | 2009-07-06

數字PID控制算法之一

資源下載 PID PID控制算法 | 2007-12-28

PID算法

資源下載 PID 算法誤差 | 2007-02-16

改進(jìn)的ZCT-PWM變換器拓撲

設計方案改進(jìn) ZCT-PWM 變換器拓撲 | 2009-07-06

硬件開(kāi)發(fā)文檔規范

嵌入式系統硬件開(kāi)發(fā) 文檔 | 2024-04-24

SHIPT算法擠壓了外包工人如何對雇主進(jìn)行審計

智能計算 SHIPT 算法算法管理 | 2024-07-04

針對5V PIC24F K系列的Microstick開(kāi)發(fā)工具

視頻 Microchip Microchip開(kāi)發(fā)工具 Microstick PIC24F K | 2013-07-11

嵌入式開(kāi)發(fā)者都該了解的十大算法

嵌入式開(kāi)發(fā)者算法 | 2024-07-16

變步長(cháng)自適應盲源分離算法的設計研究

智能計算 202306 盲源分離算法自適應步長(cháng) 收斂穩態(tài)失調 | 2023-07-07

單片機的數字濾波算法

嵌入式系統單片機濾波算法數字濾波 | 2023-11-21

單片機ADC常用的十大濾波算法（C語(yǔ)言）

單片機 ADC 濾波算法 C語(yǔ)言 | 2023-05-23

今日下載區新增多款AVR單片機開(kāi)發(fā)工具及文檔

Gao | 2002-06-04

今日上傳e-ARM全部文檔至本站下載區

Gao | 2002-07-05

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>