檔案?jìng)€(gè)性化檢索論文

時(shí)間:2022-05-21 06:02:00

導(dǎo)語(yǔ):檔案?jìng)€(gè)性化檢索論文一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。

檔案?jìng)€(gè)性化檢索論文

編者按:本文主要從個(gè)性化信息檢索與服務(wù);用戶(hù)建模技術(shù);用戶(hù)模型的建立;用戶(hù)模型設(shè)計(jì)進(jìn)行論述。其中,主要包括:目前的檔案檢索系統(tǒng)一般以傳統(tǒng)的關(guān)鍵詞檢索為主、在個(gè)性化檢索中,檢索條目與用戶(hù)查詢(xún)經(jīng)歷有關(guān)、個(gè)性化信息服務(wù)是既能對(duì)用戶(hù)提出的要求提供最貼切的信息服務(wù)、對(duì)用戶(hù)的興趣、習(xí)慣、歷史行為等方面進(jìn)行分析從而獲取其個(gè)性化信息、傳統(tǒng)的檢索流程變更為帶著用戶(hù)個(gè)性需求查找的過(guò)程、用戶(hù)信息對(duì)用戶(hù)模型的性能是至關(guān)重要的、根據(jù)用戶(hù)瀏覽行為的自動(dòng)用戶(hù)建模方法構(gòu)建出來(lái)的用戶(hù)模型只能反映用戶(hù)感興趣或不感興趣的信息等,具體請(qǐng)?jiān)斠?jiàn)。

論文摘要:本文說(shuō)明了個(gè)性化檢索技術(shù)的發(fā)展,分析了個(gè)性化檢索的內(nèi)涵和特點(diǎn),提出了用戶(hù)興趣模型的建立與更新的方法。個(gè)性化信息檢索是指根據(jù)用戶(hù)的興趣和特點(diǎn)進(jìn)行檢索,返回與用戶(hù)需求相關(guān)的檢索結(jié)果。

論文關(guān)鍵詞:個(gè)性化信息檢索用戶(hù)模型

目前的檔案檢索系統(tǒng)一般以傳統(tǒng)的關(guān)鍵詞檢索為主,這種檢索方式雖然可以在一定程度上滿(mǎn)足用戶(hù)的需求,但是由于檢索方式的限制,這種檢索的結(jié)果僅僅是與檢索詞字面意義或某層含義相匹配,對(duì)于用戶(hù)所需要的其他的概念和相關(guān)的成分就無(wú)能為力了。因此個(gè)性化檢索就成為解決這一問(wèn)題的有效途徑。個(gè)性化的實(shí)質(zhì)是針對(duì)性,即對(duì)不同的用戶(hù)采取不同的服務(wù)策略,提供不同的服務(wù)內(nèi)容。

一、個(gè)性化信息檢索與服務(wù)

個(gè)性化信息是能夠滿(mǎn)足用戶(hù)個(gè)性需求的信息。個(gè)性化信息檢索是指根據(jù)用戶(hù)的興趣和特點(diǎn)進(jìn)行檢索,返回與用戶(hù)需求相關(guān)的檢索結(jié)果。它是一種能體現(xiàn)用戶(hù)個(gè)性化特征,滿(mǎn)足個(gè)性化需求,培養(yǎng)個(gè)性化趨勢(shì)的檢索方法。在個(gè)性化檢索中,檢索條目與用戶(hù)查詢(xún)經(jīng)歷有關(guān),既可以是內(nèi)容檢索,又可利用與其它事件的關(guān)系來(lái)檢索,即是以用戶(hù)檢索行為為中心的檢索。這也是個(gè)性化檢索與一般文檔檢索的區(qū)別[1]。

個(gè)性化信息服務(wù)是既能對(duì)用戶(hù)提出的要求提供最貼切的信息服務(wù),還能依據(jù)個(gè)體個(gè)性特征,主動(dòng)收集個(gè)體可能感興趣的信息,甚至預(yù)測(cè)個(gè)體可能的個(gè)性發(fā)展,提前收集相應(yīng)的信息,最后以個(gè)性化方式顯示給個(gè)體。這里包括兩方面內(nèi)容:個(gè)性化信息和個(gè)性化服務(wù)。個(gè)性化信息是反映個(gè)體個(gè)性特征的一切信息,同時(shí)還包括個(gè)體特定的信息需求組合。個(gè)性化服務(wù)包括服務(wù)時(shí)空的個(gè)性化,服務(wù)方式的個(gè)性化和服務(wù)內(nèi)容的個(gè)性化[3]。對(duì)于這些個(gè)性化服務(wù)首先要建立對(duì)用戶(hù)的描述,然后才能據(jù)此提供針對(duì)不同用戶(hù)的個(gè)性化服務(wù)。用戶(hù)模型是個(gè)性化服務(wù)的基礎(chǔ)和核心[4]。用戶(hù)模型作為個(gè)性化服務(wù)的基礎(chǔ)和核心,因此用戶(hù)模型的質(zhì)量直接關(guān)系到個(gè)性化服務(wù)的質(zhì)量。只有當(dāng)用戶(hù)的興趣、偏好和訪(fǎng)問(wèn)模式等用戶(hù)信息可以很好地被系統(tǒng)“理解”時(shí),才有可能實(shí)現(xiàn)理想的個(gè)性化服務(wù)。從用戶(hù)信息中構(gòu)建用戶(hù)模型,也就成為了個(gè)性化服務(wù)的核心和關(guān)鍵技術(shù)之一。

個(gè)性化服務(wù)系統(tǒng)中的用戶(hù)模型不是對(duì)用戶(hù)個(gè)體的一般性描述,而是一種面向算法的、具有特定數(shù)據(jù)結(jié)構(gòu)的、形式化的用戶(hù)描述。相應(yīng)的,用戶(hù)建模是指從有關(guān)用戶(hù)興趣和行為的信息,如瀏覽內(nèi)容、瀏覽行為、背景知識(shí)等,歸納出可計(jì)算的用戶(hù)模型的過(guò)程[5]。

二、用戶(hù)建模技術(shù)

為不同的用戶(hù)提供有針對(duì)性的服務(wù),需要對(duì)用戶(hù)的興趣、習(xí)慣、歷史行為等方面進(jìn)行分析從而獲取其個(gè)性化信息。對(duì)用戶(hù)信息進(jìn)行結(jié)構(gòu)化描述,構(gòu)建反映用戶(hù)特點(diǎn)的需求模型,這一過(guò)程稱(chēng)為用戶(hù)建模。用戶(hù)建模是實(shí)現(xiàn)個(gè)性化檢索服務(wù)的基礎(chǔ)和核心[6]。

不同的用戶(hù)各自面臨著互不相同的檢索問(wèn)題,不加區(qū)分地給不同的用戶(hù)提供相同的結(jié)果,必然滿(mǎn)足不了用戶(hù)的檢索需求。要提高用戶(hù)的滿(mǎn)意度,就要把握用戶(hù)的特點(diǎn),建立用戶(hù)模型,對(duì)用戶(hù)的信息、興趣及歷史查詢(xún)行為進(jìn)行管理,對(duì)不同用戶(hù)進(jìn)行不同的學(xué)習(xí),這樣就可以針對(duì)特定用戶(hù)提供準(zhǔn)確的信息。為用戶(hù)建模可以有效解決不同用戶(hù)對(duì)相同提問(wèn)信息的不同深度和廣度的要求,在加入用戶(hù)模型之后,傳統(tǒng)的檢索流程變更為帶著用戶(hù)個(gè)性需求查找的過(guò)程,同時(shí)反饋流程也將針對(duì)用戶(hù)的意見(jiàn)進(jìn)行,以提供更加準(zhǔn)確的檢索服務(wù)。通過(guò)建立用戶(hù)模型,可以管理用戶(hù)的背景信息,在查詢(xún)一些跨領(lǐng)域信息的提問(wèn)時(shí),考慮用戶(hù)背景信息,有助于更加針對(duì)性地提供用戶(hù)真正關(guān)心的信息。通過(guò)用戶(hù)模型對(duì)用戶(hù)興趣進(jìn)行描述,同時(shí)記錄用戶(hù)的查詢(xún)行為,對(duì)用戶(hù)的查詢(xún)歷史和興趣進(jìn)行管理。

一般來(lái)說(shuō),用戶(hù)訪(fǎng)問(wèn)Internet的過(guò)程共包括以下六種信息:

(l)用戶(hù)使用搜索引擎查詢(xún)時(shí)輸入的關(guān)鍵詞;

(2)用戶(hù)維護(hù)的書(shū)簽(Bookmark);

(3)用戶(hù)瀏覽的頁(yè)面;

(4)用戶(hù)瀏覽的行為,包括用戶(hù)在每個(gè)頁(yè)面上的駐留時(shí)間,對(duì)每個(gè)頁(yè)面進(jìn)行的操作(如保存、打印頁(yè)面、將頁(yè)面存入書(shū)簽等),鼠標(biāo)和鍵盤(pán)的操作及用戶(hù)瀏覽網(wǎng)頁(yè)時(shí)眼睛的移動(dòng)、表情的變化等;

(5)用戶(hù)下載、保存的頁(yè)面和資料等;

(6)用戶(hù)手工輸入的其他信息。

從理論上說(shuō),以上六種信息都可作為用戶(hù)建模的信息來(lái)源,但用戶(hù)信息對(duì)用戶(hù)模型的性能是至關(guān)重要的,因此在建模時(shí)要慎重選擇。以下是對(duì)這六種信息的分析。

用戶(hù)輸入搜索引擎的查詢(xún)關(guān)鍵詞雖可反映用戶(hù)的興趣,但它卻不適合單獨(dú)用于用戶(hù)建模,因?yàn)橛脩?hù)查詢(xún)的關(guān)鍵詞一般都比較簡(jiǎn)單,無(wú)法來(lái)描述用戶(hù)的興趣,查詢(xún)關(guān)鍵詞是用戶(hù)檢索信息的起點(diǎn),但不是檢索信息的全部,因此查詢(xún)關(guān)鍵詞對(duì)用戶(hù)興趣與意圖的反映并不全面。

書(shū)簽(Bookmark)能較好地反映用戶(hù)的興趣,這是因?yàn)?,用?hù)會(huì)把感興趣的或重要的頁(yè)面保存在書(shū)簽(Bookmark)中,但是相對(duì)于用戶(hù)瀏覽的頁(yè)面來(lái)說(shuō),書(shū)簽(Bookmark)中的頁(yè)面數(shù)是相當(dāng)少的,并且用戶(hù)并不一定會(huì)把自己感興趣的都保存在書(shū)簽(Bookmark)中,因此書(shū)簽(Bookmark)構(gòu)建的用戶(hù)模型也不能夠全面地反映用戶(hù)的興趣。

用戶(hù)瀏覽的頁(yè)面可以全面地反映用戶(hù)的興趣,用戶(hù)瀏覽的頁(yè)面由系統(tǒng)自動(dòng)保存,可實(shí)現(xiàn)自動(dòng)用戶(hù)建模。缺點(diǎn)是用戶(hù)瀏覽的頁(yè)面中可能包含用戶(hù)不感興趣的頁(yè)面,因此在使用用戶(hù)瀏覽頁(yè)面內(nèi)容構(gòu)建用戶(hù)模型時(shí)應(yīng)避開(kāi)噪聲頁(yè)面。

用戶(hù)瀏覽行為可以反映用戶(hù)的興趣,如用戶(hù)保存某個(gè)頁(yè)面,或者在某個(gè)頁(yè)面上駐留的時(shí)間較長(zhǎng),說(shuō)明用戶(hù)對(duì)該頁(yè)面感興趣。但在建模時(shí)由于瀏覽行為對(duì)用戶(hù)興趣的體現(xiàn)需要以瀏覽頁(yè)面為載體,因此用戶(hù)的瀏覽行為必須與瀏覽頁(yè)面相結(jié)合才能構(gòu)建用戶(hù)模型。

用戶(hù)下載、保存的頁(yè)面資料等也能較好地反映用戶(hù)的興趣,因?yàn)橹挥杏脩?hù)認(rèn)為感興趣或重要的文檔,用戶(hù)才會(huì)下載和保存,這些經(jīng)用戶(hù)保存、整理的文檔能夠反映用戶(hù)長(zhǎng)期關(guān)注的主題,這種信息為用戶(hù)的背景知識(shí)。

用戶(hù)手工輸入的有關(guān)用戶(hù)興趣特點(diǎn)的信息也可作為用戶(hù)建模的數(shù)據(jù)來(lái)源之一,如用戶(hù)感興趣主體的關(guān)鍵詞、對(duì)瀏覽頁(yè)面的感興趣程度等,在自動(dòng)用戶(hù)建模技術(shù)尚不成熟的情況下,用戶(hù)手工輸入的信息是用戶(hù)建模的重要來(lái)源。

綜上所述,在以上六種信息來(lái)源中,用戶(hù)瀏覽的頁(yè)面和瀏覽行為最能全面地反映用戶(hù)的興趣;用戶(hù)的Bookmark和保存整理的文檔雖不能全面地反映用戶(hù)的興趣,但能很好地反映用戶(hù)關(guān)注的信息;用戶(hù)輸入搜索引擎的查詢(xún)關(guān)鍵詞不宜單獨(dú)用于用戶(hù)建模。

一般常用的用戶(hù)建模是指根據(jù)用戶(hù)的瀏覽內(nèi)容和瀏覽行為自動(dòng)構(gòu)建用戶(hù)模型、建模時(shí)無(wú)需用戶(hù)主動(dòng)提供信息的一種建模方法。根據(jù)用戶(hù)瀏覽行為的自動(dòng)用戶(hù)建模方法構(gòu)建出來(lái)的用戶(hù)模型只能反映用戶(hù)感興趣或不感興趣的信息,得不到用戶(hù)具體感興趣的主題,其實(shí)質(zhì)是一種粗興趣粒度用戶(hù)模型。另一種自動(dòng)用戶(hù)建模的思路是根據(jù)用戶(hù)瀏覽的內(nèi)容進(jìn)行興趣聚類(lèi),找出用戶(hù)的興趣,構(gòu)建用戶(hù)模型。通過(guò)興趣聚類(lèi)可以得到用戶(hù)模型的細(xì)興趣粒度表示。在現(xiàn)有的用戶(hù)建模方法中,用戶(hù)的瀏覽行為僅能得到用戶(hù)對(duì)相應(yīng)信息感興趣與否的推斷,得不到用戶(hù)感興趣的程度,而用戶(hù)對(duì)相應(yīng)信息的感興趣程度有助于得到用戶(hù)對(duì)關(guān)鍵詞和興趣主題的感興趣程度,從而建立更為詳細(xì)、準(zhǔn)確的用戶(hù)模型,也有利于實(shí)現(xiàn)高性能的用戶(hù)模型的遺忘與更新,提供更高質(zhì)量的個(gè)性化服務(wù)。

三、用戶(hù)模型的建立

在信息檢索系統(tǒng)中,一個(gè)用戶(hù)模型的建立過(guò)程涉及到以下內(nèi)容:

(1)用戶(hù)興趣的表示:就是以何種形式來(lái)表征用戶(hù)的興趣。為了便于進(jìn)行信息匹配算法,用戶(hù)的興趣通常與資源表示具有同樣或相似的形式。其次,一個(gè)用戶(hù)可能有多個(gè)興趣可能同時(shí)存在,那么就需要在模型中將多個(gè)興趣同時(shí)表達(dá)出來(lái)。

(2)用戶(hù)模型的更新:就是采用何種算法更新用戶(hù)模型。在信息檢索系統(tǒng)中,就是如何根據(jù)用戶(hù)的反饋信息更新用戶(hù)的興趣。

(3)信息過(guò)濾算法:就是如何根據(jù)用戶(hù)模型對(duì)未過(guò)濾的信息進(jìn)行匹配,判斷是否符合用戶(hù)需求的算法。過(guò)濾算法與資源表示、用戶(hù)興趣的表示密切相關(guān)。

用戶(hù)興趣模型是指對(duì)于用戶(hù)感興趣的信息的可計(jì)算描述,是所有其它智能化功能的基礎(chǔ)。一般用戶(hù)興趣模型采用詞頻法,其中的用戶(hù)興趣用二元組表示(興趣詞條、興趣權(quán)重),在詞頻中考慮到各個(gè)詞條在文檔中的不同位置,體現(xiàn)了詞條的不同重要度;以及各文檔在網(wǎng)頁(yè)超鏈關(guān)系中引用與被引用情況,又體現(xiàn)了文檔的不同重要度等因素。

用戶(hù)興趣的生成與更新算法是整個(gè)用戶(hù)興趣模型的核心內(nèi)容。假設(shè)用戶(hù)輸入的檢索詞條經(jīng)過(guò)詞干提取(對(duì)中文還有詞條切分)等預(yù)處理技術(shù)之后為q(q1,q2,…,qk),在初次檢索之后,返回一些查詢(xún)結(jié)果,得到一組頁(yè)面D(d1,d2,…dn)。首先計(jì)算詞條qi的權(quán)值wi,我們采用詞頻法,即計(jì)算詞條qi在文本D(d1,d2,…dn)中出現(xiàn)的頻度sij,j=1,2,…n,這些頻度的總和來(lái)作為詞條的權(quán)重,即wi=,這樣我們就得到兩個(gè)向量q(q1,q2,…,qk)和w(w1,w2,…wk),將興趣二元組(q,w)加入到用戶(hù)詞典中。用戶(hù)詞典是由詞條和權(quán)重組成的二元組的集合。

四、用戶(hù)模型設(shè)計(jì)

基于用戶(hù)模型設(shè)計(jì)的信息檢索系統(tǒng)與一般的信息檢索系統(tǒng)的最大區(qū)別在于對(duì)從用戶(hù)界面接收的用戶(hù)查詢(xún),將首先利用用戶(hù)模型予以分析,同時(shí)結(jié)果的匹配、過(guò)濾也需要基于用戶(hù)模型進(jìn)行。通過(guò)學(xué)習(xí)機(jī)制以及推理機(jī)制,一方面學(xué)習(xí)了用戶(hù)在信息需求上的偏好,另一方面,也可以對(duì)用戶(hù)需求進(jìn)行推導(dǎo)、歸納。

【參考文獻(xiàn)】

[1]趙靜.個(gè)性化信息檢索及功能模型.圖書(shū)與情報(bào),2004(l).

[2]應(yīng)曉敏等一種面向個(gè)性化服務(wù)的無(wú)需反例集的用戶(hù)建模方法.國(guó)防科技大學(xué)學(xué)報(bào),2002(3):67-71

[3]杜春光.個(gè)性化信息服務(wù)的模式研究及策略分析[J].國(guó)家圖書(shū)館學(xué)刊,2005;(2):63-66..

[4]張玉峰等.基于Agent的個(gè)性化信息服務(wù)模型研究[J].情報(bào)學(xué)報(bào),2001,20(5):555-559.