基于MAS的個(gè)性化信息檢索系統的設計
1 引 言
本文引用地址:http://dyxdggzs.com/article/88705.htmWeb信息的迅速增長(cháng)造成信息過(guò)載,用戶(hù)查找信息需借助搜索引擎,而搜索引擎提供的服務(wù)卻難以令人滿(mǎn)意。一方面由于用戶(hù)和系統的交互性差,用戶(hù)清楚自己的信息需求特征卻無(wú)法描述,另一方面由于搜索引擎自身特性,無(wú)法過(guò)濾與用戶(hù)無(wú)關(guān)的文檔。
本文希望采用網(wǎng)絡(luò )智能思想,通過(guò)多智能代理技術(shù),結合用戶(hù)的基本信息和動(dòng)態(tài)信息建立用戶(hù)模型和用戶(hù)群模型,運用信息檢索和數據挖掘技術(shù),建立了一個(gè)個(gè)性化信息檢索模型。結合智能體的思想,通過(guò)某種方式完成信息查找、過(guò)濾和調整。使得系統具有靈活性、智能性和擴充性。
2 Agent技術(shù)
Agent是一個(gè)實(shí)體,具有一定的知識,并能夠針對特定目標有效地運用知識求解問(wèn)題,具有自主性、交互性、適應性、進(jìn)化性、可通信性、理性等特性。每個(gè)Agent會(huì )觀(guān)察用戶(hù)的動(dòng)作,主動(dòng)提供處理環(huán)境所需技術(shù),根據用戶(hù)反饋不斷更新檢索結果,為實(shí)現Web信息檢索智能化提供了有力支持。
多Agent是指具有不同目標的多個(gè)Agent對其目標、資源等進(jìn)行合理的安排,以協(xié)調各自行為,最大程度地實(shí)現各自的目標,它由多個(gè)Agent組成,每個(gè)Agent又是一個(gè)自治計算實(shí)體,具有目標、知識、能力。多Agent適應個(gè)性化信息檢索處理環(huán)境所需的靈活性的特點(diǎn),可以在Web上建立能夠完成相應功能的Agent,通過(guò)學(xué)習不斷適應調整并通過(guò)交互相互通信合作,協(xié)助用戶(hù)準確、有效地獲取信息。
智能代理技術(shù),主要是指具有智能性,可支持高級、復雜自動(dòng)處理代理軟件技術(shù),并能夠按照設計者指示要求獨立收集信息并在再次過(guò)程中自我學(xué)習,具有自動(dòng)性,目標驅動(dòng)性。連續性和能動(dòng)性等特點(diǎn),可以在較高的程度上去分辨識別、理解與應用其用戶(hù)的需求及其特征。智能代理技術(shù)為Internet上自動(dòng)的信息收集提供框架?;诖斯δ芴匦?,通過(guò)對相關(guān)應用和系統的分析,提出了一個(gè)基于MAS的實(shí)現框架。
個(gè)性化信息檢索是指根據用戶(hù)的興趣和特點(diǎn)進(jìn)行檢索,返回與用戶(hù)需求相關(guān)的檢索結果。一般檢索過(guò)程:首先用戶(hù)輸入查詢(xún)請求,然后搜索引擎搜索文檔,并將搜索結果返回給用戶(hù),最后用戶(hù)查看相關(guān)文檔或者修改查詢(xún)請求。查看相關(guān)文檔或者修改耷誨請求是用戶(hù)對檢索信息的反饋,能夠反映用戶(hù)信息需隸及其變化。通過(guò)反饋信息,實(shí)現用戶(hù)個(gè)人Agent和用戶(hù)群Agent的模型更新,完成個(gè)性化過(guò)濾和協(xié)作式推薦2部分功能,因此用戶(hù)個(gè)人Agent和用戶(hù)群Agent是系統的核心。圖1表示該個(gè)性化信息檢索模型框架結構。
下面對用戶(hù)個(gè)人Agent、用戶(hù)群Agent、推薦Agent、過(guò)濾Agent功能模塊在實(shí)現機制上進(jìn)行分析說(shuō)明。
2.1 用戶(hù)個(gè)人Agent
用戶(hù)模型的表示采用向量空間模型的方法,將用戶(hù)模型表示成一個(gè)n維特征向量:
向量的每一維由一個(gè)關(guān)鍵詞及其權重組成。權重表示用戶(hù)是否對某個(gè)概念感興趣以及感興趣的程度,文檔模型表示成為一個(gè)n維特征向量:
向量的每一維由一個(gè)關(guān)鍵字及其權重組成。ti表示文檔中的關(guān)鍵字j,wji表示關(guān)鍵字j在文檔i中的權重。這種方法有利于表達概念在不同用戶(hù)模型中的重要程度,而且有利于后續階段匹配任務(wù)。用戶(hù)模型的更新采用動(dòng)態(tài)信息增補技術(shù),動(dòng)態(tài)信息增補對反饋過(guò)濾的信息加入到用戶(hù)模型后調整各向量的權重,與用戶(hù)無(wú)關(guān)的特征向量隨著(zhù)權值的減小從模型中被刪除。
2.2 用戶(hù)群Agent
用戶(hù)群Agent的建立采用聚類(lèi)技術(shù)。聚類(lèi)是將具有相同特征的項目和用戶(hù)分類(lèi),用于建立用戶(hù)綜合模型。該聚類(lèi)為個(gè)體和類(lèi)之間的聚類(lèi)而不是個(gè)體之間的聚類(lèi)。用戶(hù)模型表示成1個(gè)n維特征向量:ui={(t1,w1),(t2,w2),…,(tn,wn)},用余弦公式計算用戶(hù)和類(lèi)的相關(guān)度。用戶(hù)聚類(lèi)采用關(guān)鍵詞匹配法,根據需要設定閥值ε,當用戶(hù)和類(lèi)之間相似度大于ε時(shí),說(shuō)明用戶(hù)屬于該類(lèi),興趣相同。用戶(hù)群Agent更新算法為用戶(hù)群模型的更新為追蹤推薦模型中符合要求的關(guān)聯(lián)文檔點(diǎn)擊次數,隨著(zhù)點(diǎn)擊次數的增加,推薦用戶(hù)的個(gè)人Agent的權重增加。
2.3 查詢(xún)Agent
查詢(xún)Agent一方面負責用戶(hù)Agent查詢(xún)引導,另一方面接受用戶(hù)群Agent的查詢(xún)擴展。
用戶(hù)個(gè)人Agent查詢(xún)引導,將用戶(hù)特征模型的向量根據反饋信息提取用戶(hù)查詢(xún)結果的有關(guān)信息和無(wú)關(guān)信息,將其特征向量加入模型作為調節因子,其調節因子為布爾值,表示用戶(hù)是否感興趣,從而引導用戶(hù)查詢(xún),修改查詢(xún)中的關(guān)鍵詞的權重。
用戶(hù)群Agent的查詢(xún)擴展,用戶(hù)個(gè)人Agent記錄用戶(hù)資源列表,在用戶(hù)聚類(lèi)基礎上查詢(xún),查詢(xún)資源聚類(lèi)形成類(lèi)資源,將類(lèi)名表給用戶(hù)反饋過(guò)濾得到相關(guān)類(lèi)名表,查詢(xún)Agent根據相關(guān)類(lèi)名表,更新查詢(xún)特征向量,進(jìn)行擴展查詢(xún),查看點(diǎn)擊興趣Agent的資源列表。
2.4 過(guò)濾Agent
用戶(hù)模型和過(guò)濾文本的匹配包括2方面:用戶(hù)個(gè)人Agent過(guò)濾和用戶(hù)群Agent過(guò)濾。用戶(hù)個(gè)人Agent使用關(guān)鍵詞匹配法,使用tf-idf計算權重值,然后用余弦公式計算內容相關(guān)度。根據需要設定閥值ε,當文檔d和主題q之間相似度大于ε時(shí),說(shuō)明內容符合主題,是用戶(hù)需要的文檔。
用戶(hù)群Agent過(guò)濾采用基于用戶(hù)一項目評價(jià)矩陣的表示法。用一個(gè)Rm×n矩陣來(lái)表示用戶(hù)模型。其中m為系統用戶(hù)數;n為項目數。矩陣中的每個(gè)元素rij表示了用戶(hù)i對項目j的評價(jià),一般是某個(gè)實(shí)數范圍內的整數值。通常值越大,表示用戶(hù)對相應項目的偏好程度越高??赵刂当硎居脩?hù)沒(méi)有對相應的項目做出評價(jià)。采用這種表示方法的系統多是基于協(xié)同過(guò)濾的推薦系統。這種表示方法簡(jiǎn)單、直觀(guān),不需要任何學(xué)習技術(shù)就能夠從收集的原始數據(顯性的用戶(hù)評價(jià)數據)中直接生成。
2.5 推薦Agent
推薦Agent主要負責推薦關(guān)聯(lián)文檔,并更新用戶(hù)群Agent模型。查詢(xún)一個(gè)n維特征向量{(t1,w1),(t2,w2),…,(tn,wn)},文檔模型為一個(gè)n維特征向量:di={,……},推薦模型中個(gè)人模型為M={d1,d2,…,dm),則推薦模型中關(guān)鍵詞在推薦群中單個(gè)用戶(hù)的權值為:
根據權值推薦匯集集合排序,并將和用戶(hù)有較高相關(guān)度的前N個(gè)文檔呈現給用戶(hù)。
3 系統功能流程分析
該系統的個(gè)性化信息搜索分為個(gè)性化過(guò)濾是通過(guò)建立用戶(hù)個(gè)人Agent進(jìn)行過(guò)濾,而協(xié)作式推薦通過(guò)建立用戶(hù)群Agent進(jìn)行推薦。
個(gè)性化過(guò)濾過(guò)程 個(gè)性化過(guò)濾流程如圖2所示,首先通信Agent將反饋信息發(fā)送給用戶(hù)監控Agent,用戶(hù)監控Agent抽取反饋信息中的行為信息,然后結合用戶(hù)注冊Agent的基本信息和用戶(hù)監控Agent的顯性信息,用戶(hù)個(gè)人Agent用向量空間模型法提取特征建立模型,最后過(guò)濾Agent用關(guān)鍵詞匹配方法將個(gè)人特征向量和搜索文檔進(jìn)行匹配過(guò)濾得到個(gè)性化查詢(xún)結果。
協(xié)作式推薦過(guò)程 協(xié)作式推薦流程如圖2所示,首先在用戶(hù)聚類(lèi)的基礎上,查詢(xún)特征向量發(fā)布到類(lèi)中各個(gè)成員、各個(gè)成員查詢(xún)資源列表;將查詢(xún)資源匯集,然后聚類(lèi)資源,形成類(lèi)資源;將類(lèi)名表發(fā)送給用戶(hù),反饋相關(guān)類(lèi)名;最后在類(lèi)資源中提取相關(guān)類(lèi)資源,經(jīng)過(guò)推薦過(guò)濾,形成查看資源。過(guò)程如圖3所示:
4 模型特點(diǎn)
(1)該模型采用多智能體技術(shù),使得各個(gè)部分自主學(xué)習、相互協(xié)調;使得個(gè)性化信息檢索中的數據收集,模型表示、模型的學(xué)習和模型的更新中功能能夠由其中多個(gè)Agent更好地協(xié)調補充完成,使各個(gè)過(guò)程具有智能化特點(diǎn)。
(2)充分挖掘用戶(hù)的信息需求,用戶(hù)注冊Agent主要負責顯性信息的獲得處理,記錄用戶(hù)的基本信息和用戶(hù)資源列表、用戶(hù)直接參與、簡(jiǎn)單直接。用戶(hù)監控Agent主要負責隱性信息獲得處理,記錄用戶(hù)的動(dòng)態(tài)信息,在不影響用戶(hù)活動(dòng)的前提下動(dòng)態(tài)實(shí)時(shí)獲得最新信息。
(3)采用C/S框架結構,通信模塊介于之間,負責信息交互,個(gè)人用戶(hù)建模在客戶(hù)端代理執行,可以保護用戶(hù)的隱私,用戶(hù)聚類(lèi)與合作在服務(wù)器端代理實(shí)現,可以在充分保護個(gè)人隱私的前提下,實(shí)現信息資源共享,提高Web信息的覆蓋率。
(4)建模技術(shù)的使用,一方面利用個(gè)人模型引導用戶(hù)提問(wèn),過(guò)濾檢索結果,使檢索更符合個(gè)性化要求;另一方面充分利用群用戶(hù)的信息,在合作的基礎上,得到和用戶(hù)請求相關(guān)的推薦結果,查詢(xún)擴展,實(shí)現資源共享。
5 結 語(yǔ)
該個(gè)性化信息檢索模型提出多智能體的框架結構,運用用戶(hù)建模和群建模技術(shù),使兩者相互結合,相互補充,既注重用戶(hù)的個(gè)性,過(guò)濾無(wú)關(guān)內容,又發(fā)揮合作作用,共享相關(guān)內容,實(shí)現了信息檢索的個(gè)性化、智能化。
評論