用戶行為的智能檔案推薦系統(tǒng)設(shè)計(jì)

時(shí)間:2022-11-07 11:23:07

導(dǎo)語(yǔ):用戶行為的智能檔案推薦系統(tǒng)設(shè)計(jì)一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

用戶行為的智能檔案推薦系統(tǒng)設(shè)計(jì)

摘要:本文通過(guò)對(duì)檔案管理系統(tǒng)的用戶歷史行為數(shù)據(jù)進(jìn)行抽取、分析、預(yù)處理,設(shè)計(jì)了基于物品的協(xié)同過(guò)濾算法模型的檔案智能推薦系統(tǒng),可以在用戶無(wú)法準(zhǔn)確描述其需求時(shí)根據(jù)系統(tǒng)其他用戶的歷史行為數(shù)據(jù)智能推薦相關(guān)檔案,從而在一定程度上解決了無(wú)法精準(zhǔn)描述需求時(shí)的檔案查詢問(wèn)題。

關(guān)鍵詞:用戶行為;協(xié)同過(guò)濾;智能推薦

一、引言

隨著數(shù)字檔案室建設(shè)項(xiàng)目的推進(jìn),以電子文件為對(duì)象,基于OCR識(shí)別、語(yǔ)音識(shí)別、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)實(shí)現(xiàn)的電子檔案管理模式正在逐步取代傳統(tǒng)紙質(zhì)檔案管理模式。在電子檔案管理模式下,檔案信息量爆炸式增加導(dǎo)致信息量過(guò)載和人們需求量的嚴(yán)重不平衡[1]529。用戶要從海量電子檔案中檢索自己需要的檔案信息變得越來(lái)越困難了。傳統(tǒng)的搜索引擎可以通過(guò)用戶輸入的關(guān)鍵字返回與輸入關(guān)鍵字相關(guān)的檔案信息,在一定程度上緩解了檔案信息過(guò)載問(wèn)題,但是當(dāng)用戶無(wú)法精準(zhǔn)描述檔案需求的關(guān)鍵字時(shí),傳統(tǒng)搜索引擎就無(wú)能為力了。與傳統(tǒng)的搜索引擎不同,智能推薦系統(tǒng)并不需要用戶提供精準(zhǔn)的用檔需求,而是通過(guò)分析檔案用戶行為信息(檔案用戶行為信息是指用戶在檔案管理系統(tǒng)中進(jìn)行檢索、瀏覽、下載、打印等操作所留下的數(shù)據(jù)痕跡[2]58),采用協(xié)同過(guò)濾算法,向用戶推薦能夠滿足他們需求的檔案信息。

二、基于協(xié)同過(guò)濾算法的推薦系統(tǒng)

文獻(xiàn)研究發(fā)現(xiàn):學(xué)術(shù)界認(rèn)定的第一個(gè)推薦系統(tǒng)是1992年xeroxPARC(施樂(lè)實(shí)驗(yàn)室)推出的Tapestry系統(tǒng)(垃圾郵件過(guò)濾并電子新聞推薦系統(tǒng))。該系統(tǒng)需要事先了解和熟悉系統(tǒng)用戶的興趣和愛(ài)好,只能適用于系統(tǒng)用戶數(shù)比較少的場(chǎng)景。1997年,明尼蘇達(dá)大學(xué)的研究小組開(kāi)發(fā)了Movielens系統(tǒng)(電影智能推薦系統(tǒng)),拉開(kāi)了推薦系統(tǒng)蓬勃發(fā)展的序幕。該系統(tǒng)根據(jù)用戶對(duì)電影的評(píng)分,預(yù)測(cè)用戶可能感興趣的電影類型、風(fēng)格、演員、導(dǎo)演等,向用戶推薦合適的電影[3]201。Netflix(美國(guó)奈飛公司)為期三年的百萬(wàn)美金大賽是推薦系統(tǒng)領(lǐng)域的標(biāo)志性事件之一,它將推薦算法的研究推向高潮,吸引了全世界186個(gè)國(guó)家4萬(wàn)多位專業(yè)人士開(kāi)始投身于推薦系統(tǒng)領(lǐng)域的研究,并將這項(xiàng)技術(shù)從學(xué)術(shù)圈真正轉(zhuǎn)向商業(yè)領(lǐng)域。隨著Amazon(美國(guó)亞馬遜公司)開(kāi)始在網(wǎng)站上根據(jù)用戶的瀏覽購(gòu)買行為對(duì)用戶進(jìn)行個(gè)性化推薦,并成功提升網(wǎng)站35%的銷售額,個(gè)性化推薦系統(tǒng)在圖書(shū)、音樂(lè)、視頻、新聞、電影、購(gòu)物等領(lǐng)域的應(yīng)用越來(lái)越廣泛[4]182。國(guó)內(nèi)推薦算法研究起步較晚,但也取得了可喜的成果,在門戶網(wǎng)站、電子商務(wù)等領(lǐng)域開(kāi)展了廣泛應(yīng)用,比較著名的包括:今日頭條新聞、淘寶、京東、豆瓣影視推薦等。推薦算法發(fā)展至今,其技術(shù)路線大致可以劃分為三類:基于內(nèi)容模型的推薦算法、基于協(xié)同過(guò)濾模型的推薦算法、基于混合模型的推薦算法。協(xié)同過(guò)濾模型算法是推薦系統(tǒng)中較為著名和常用的一種方法。它依據(jù)“人以類聚,物以群分”的聚類特點(diǎn)進(jìn)行預(yù)測(cè)和推薦,可以將大部分看起來(lái)無(wú)交集的人或物品,通過(guò)大數(shù)據(jù)分析、數(shù)據(jù)挖掘等技術(shù)挖掘出相似的個(gè)別群體,實(shí)現(xiàn)根據(jù)和你有共同喜好的人給你推薦物品或者根據(jù)你喜歡的物品給你推薦相似的物品[5]1433。常用的協(xié)同過(guò)濾算法包括基于用戶的協(xié)同過(guò)濾算法和基于物品的協(xié)同過(guò)濾算法。

1.基于用戶的協(xié)同過(guò)濾算法

根據(jù)當(dāng)前用戶對(duì)物品(信息)的偏好,計(jì)算出與之有相同口味或偏好的用戶群(可以使用反查表過(guò)濾掉一部分用戶),比如用戶A喜歡物品A、B,用戶B也喜歡物品A、B,則可以認(rèn)為用戶A與用戶B口味或偏好相似。選擇用戶群中與當(dāng)前用戶相似度最高的K個(gè)用戶作為鄰居,在鄰居喜歡的物品(信息)中根據(jù)與用戶的相似度計(jì)算出每一件物品(信息)的相似度,根據(jù)相似度推薦物品(信息)給當(dāng)前用戶。

2.基于物品的協(xié)同過(guò)濾算法

根據(jù)當(dāng)前用戶偏好的物品(信息),計(jì)算出與偏好物品(信息)相似的物品(信息)集,這里的相似度計(jì)算不是依據(jù)物品(信息)的內(nèi)容屬性而是依據(jù)物品(信息)在用戶歷史行為記錄中同時(shí)出現(xiàn)的次數(shù),比如物品(信息)A和物品(信息)B在同一用戶歷史行為記錄中多次同時(shí)出現(xiàn),則認(rèn)為物品(信息)A和物品(信息)B的相似度高。根據(jù)相似物品(信息)集推薦相似度最高的物品(信息)給當(dāng)前用戶。

3.常用的相似度計(jì)算公式

協(xié)同過(guò)濾算法主要解決的問(wèn)題是,當(dāng)你面對(duì)海量物品或者信息不知道怎么選擇時(shí),根據(jù)大家的行為數(shù)據(jù)來(lái)幫你做選擇。它的關(guān)鍵核心是計(jì)算用戶或者物品之間的相似度,常用的相似度計(jì)算公式包括杰卡德相似系數(shù)、夾角余弦、相關(guān)系數(shù)等方法。

三、智能推薦系統(tǒng)實(shí)現(xiàn)的關(guān)鍵步驟

1.設(shè)計(jì)思路

設(shè)計(jì)的主要目標(biāo)是對(duì)用戶進(jìn)行檔案的推薦,即通過(guò)一定方式將用戶與檔案之間建立聯(lián)系[6]682。當(dāng)用戶瀏覽具體檔案文本時(shí),在頁(yè)面下邊自動(dòng)推薦基于物品相關(guān)的其他檔案也就是常見(jiàn)的“查詢了該檔案的人也喜歡”功能。常用的基于物品的協(xié)同過(guò)濾算法可以解決上述問(wèn)題,該算法實(shí)現(xiàn)的主要步驟包括:(1)根據(jù)用戶使用檔案系統(tǒng)的歷史數(shù)據(jù)收集用戶偏好;(2)根據(jù)檔案用戶的歷史行為數(shù)據(jù)計(jì)算不同檔案之間的相似度。注意這里的檔案相似度是指兩份檔案在不同的查詢過(guò)程中同時(shí)被查詢的次數(shù)。采用上述的分析方法和思路,結(jié)合原始數(shù)據(jù)和分析目標(biāo),可以獲得如圖1所示的分析設(shè)計(jì)流程圖。

2.數(shù)據(jù)抽取

系統(tǒng)會(huì)在用戶使用檔案系統(tǒng)時(shí),自動(dòng)記錄訪問(wèn)日志,記錄每個(gè)用戶在系統(tǒng)中的操作細(xì)節(jié),從而建立用戶與檔案之間的聯(lián)系。其訪問(wèn)的數(shù)據(jù)記錄見(jiàn)表1,其中記錄了用戶ID,輸入關(guān)鍵字,瀏覽檔案標(biāo)題、瀏覽時(shí)長(zhǎng)、下載標(biāo)識(shí)、打印標(biāo)識(shí)等多項(xiàng)屬性。在設(shè)計(jì)中,我們抽取所有的用戶訪問(wèn)日志記錄作為原始數(shù)據(jù)集。原始數(shù)據(jù)集應(yīng)盡最大量選擇數(shù)據(jù),大量的數(shù)據(jù)能夠讓模型更好地學(xué)習(xí)到真實(shí)場(chǎng)景的數(shù)據(jù)分布,不容易產(chǎn)生有偏的分布估計(jì),從而降低推薦結(jié)果的隨機(jī)性,提高推薦結(jié)果的準(zhǔn)確性。

3.數(shù)據(jù)分析

通過(guò)對(duì)用戶使用檔案系統(tǒng)的行為習(xí)慣分析,我們發(fā)現(xiàn)用戶在找到與檢索關(guān)鍵字相關(guān)的檔案時(shí),會(huì)進(jìn)行長(zhǎng)時(shí)間瀏覽、下載或者打印。在設(shè)計(jì)中我們引入了下載標(biāo)識(shí)、打印標(biāo)識(shí)這些字段作為檔案與檢索關(guān)鍵字相關(guān)的判斷標(biāo)識(shí)。對(duì)于沒(méi)有下載標(biāo)識(shí)和打印標(biāo)識(shí)但又有一定瀏覽時(shí)長(zhǎng)的檔案,它也有可能與檢索關(guān)鍵字相關(guān),為此,我們引入了平均瀏覽時(shí)長(zhǎng)概念,通過(guò)計(jì)算帶有下載標(biāo)識(shí)或者打印標(biāo)識(shí)記錄的平均瀏覽時(shí)長(zhǎng),以該時(shí)長(zhǎng)作為基線,并判斷沒(méi)有下載標(biāo)識(shí)和打印標(biāo)識(shí)的檔案瀏覽時(shí)長(zhǎng)是否大于基線時(shí)長(zhǎng),作為該檔案是否與檢索關(guān)鍵字相關(guān)的判斷標(biāo)識(shí)。

4.數(shù)據(jù)預(yù)處理

由于用戶訪問(wèn)日志記錄了用戶在檔案收集、管理、利用等過(guò)程中的所有操作行為,其中有許多無(wú)法直接利用的“臟數(shù)據(jù)”,因而無(wú)法直接對(duì)抽取的原始數(shù)據(jù)集進(jìn)行分析。因此,需要對(duì)原始數(shù)據(jù)集進(jìn)行清洗:(1)刪除不是用戶在查詢模塊產(chǎn)生的所有日志數(shù)據(jù);(2)刪除沒(méi)有下載標(biāo)識(shí)和打印標(biāo)識(shí)且瀏覽時(shí)長(zhǎng)小于平均瀏覽時(shí)長(zhǎng)的所有操作日志;(3)刪除含有異常值或缺失值的日志數(shù)據(jù),如不包含檢索關(guān)鍵字、檔案號(hào)、打印、下載、瀏覽標(biāo)識(shí)等的日志數(shù)據(jù)。對(duì)處理后的數(shù)據(jù),需要進(jìn)行屬性規(guī)約,提取模型需要的數(shù)據(jù)特征,在設(shè)計(jì)中需要考慮將用戶在同一登錄時(shí)段的所有檔案查詢記錄合并為一次歷史查詢,因此提取“用戶ID”“用戶登錄系統(tǒng)的時(shí)間”“檔案文件的檔案號(hào)”作為系統(tǒng)輸入數(shù)據(jù)集使用的數(shù)據(jù)特征,數(shù)據(jù)格式如表2所示。

5.模型構(gòu)建

根據(jù)輸入數(shù)據(jù)集構(gòu)建用戶對(duì)檔案的評(píng)分矩陣,用戶對(duì)檔案的瀏覽時(shí)長(zhǎng)、打印、下載等行為對(duì)應(yīng)不同的評(píng)分,其中打印、下載的評(píng)分值應(yīng)高于瀏覽時(shí)長(zhǎng),表示被打印或下載的檔案與檢索關(guān)鍵字密切相關(guān)。設(shè)計(jì)中構(gòu)建評(píng)分矩陣時(shí)將同一用戶ID在不同登陸時(shí)段的操作分為不同的用戶記錄。評(píng)分矩陣如表3所示。設(shè)計(jì)采用杰卡德相似系數(shù)(Jaccardsimilaritycoeffi-cient)計(jì)算不同檔案之間的相似度用以構(gòu)建檔案同現(xiàn)矩陣,其計(jì)算公式如圖2。其中,分母A1∪AM表示瀏覽過(guò)檔案1或者瀏覽過(guò)檔案M的用戶總數(shù),分子A1∩AM表示同時(shí)瀏覽過(guò)檔案1和檔案M的用戶總數(shù)。完成各個(gè)檔案之間相似度的計(jì)算后,得到一個(gè)檔案之間的同現(xiàn)矩陣。同現(xiàn)矩陣如表4所示。通過(guò)用戶對(duì)檔案的評(píng)分矩陣和檔案同現(xiàn)矩陣可以計(jì)算出用戶對(duì)檔案的推薦列表,根據(jù)不同的評(píng)分優(yōu)先推薦評(píng)分高的檔案給當(dāng)前用戶。

6.模型評(píng)價(jià)

設(shè)計(jì)采用交叉驗(yàn)證法對(duì)模型進(jìn)行評(píng)估:(1)隨機(jī)打亂原始數(shù)據(jù)的順序,將用戶行為數(shù)據(jù)集按照均勻分布隨機(jī)分成10份,挑選1份作為測(cè)試集,將剩下的9份作為訓(xùn)練集;(2)在訓(xùn)練集上建立模型,并在測(cè)試集上對(duì)用戶行為進(jìn)行預(yù)測(cè),統(tǒng)計(jì)出相應(yīng)的評(píng)測(cè)指標(biāo);(3)通過(guò)多次重復(fù),得出比較穩(wěn)定可靠的評(píng)測(cè)結(jié)果,最后將實(shí)驗(yàn)測(cè)出的評(píng)測(cè)結(jié)果的平均值作為最終的評(píng)測(cè)指標(biāo)。本設(shè)計(jì)以傳統(tǒng)單一的協(xié)同過(guò)濾算法為主導(dǎo),智能推薦系統(tǒng)的泛化性能還有提升的空間,后續(xù)將引入基于深度學(xué)習(xí)的智能推薦算法,增強(qiáng)數(shù)據(jù)模型的表達(dá)能力,提升智能推薦系統(tǒng)的泛化性能,更好地滿足用戶的查檔需求。

作者:甘雨