數(shù)據(jù)挖掘技術(shù)影視智能推薦算法分析

時間:2022-06-09 03:14:04

導語:數(shù)據(jù)挖掘技術(shù)影視智能推薦算法分析一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘技術(shù)影視智能推薦算法分析

摘要:針對當前影視智能推薦算法的推薦誤差大、推薦時間長等局限性,以提高影視智能推薦精度為目標,獲得理想的影視智能推薦結(jié)果,提出基于數(shù)據(jù)挖掘技術(shù)影視智能推薦算法。該算法首先對影視智能推薦的工作原理進行分析,指出各種影視智能推薦算法的弊端;然后收集大量的影視智能推薦數(shù)據(jù),根據(jù)數(shù)據(jù)得到用戶⁃影視評分矩陣及相似度計算公式;最后引入數(shù)據(jù)挖掘技術(shù)建立影視智能推薦模型,并與其他影視智能推薦算法進行仿真對比實驗,結(jié)果表明,該方法是一種精度高、速度快的影視智能推薦算法,相對于其他影視智能推薦算法,該算法的影視智能推薦整體效果更優(yōu),具有十分廣泛的應用前景。

關(guān)鍵詞:影視推薦;人工智能技術(shù);大數(shù)據(jù)分析;數(shù)據(jù)挖掘;用戶評分矩陣;仿真測試;推薦效率

近年來,隨著移動通信技術(shù)和無線網(wǎng)絡技術(shù)的發(fā)展,它們已經(jīng)滲透到人們生活的各個領域,移動通信已經(jīng)影響到了人們生活的各個方面[1]。在新媒體技術(shù)的影響下,人們將一些歷史題材改編成了電視、電影,影視數(shù)據(jù)的數(shù)量大幅度增加,隨著人們生活水平的不斷提高對精神生活要求越來越高,而影視推薦網(wǎng)站層出不窮人們要在短時間內(nèi)找到自己喜歡的影視作品十分困難故出現(xiàn)了“影視過載”問題[2]。為了解決“影視過載”問題,出現(xiàn)了影視智能化推薦系統(tǒng),而影視推薦算法是最為核心的內(nèi)容[3⁃5]。為了獲得理想的影視智能推薦效果,本文提出了基于數(shù)據(jù)挖掘技術(shù)的影視智能推薦算法,并與其他方法進行影視推薦對比測試,結(jié)果表明,本文方法是一種精度高、速度快的影視智能推薦方法,相對其他方法,本文影視推薦方法具有十分明顯的優(yōu)越性。

1影視智能推薦算法的相關(guān)研究

針對影視推薦問題,國內(nèi)外學者進行了大量深入的研究,當前存在許多影視推薦系統(tǒng)[6]。一個影視推薦系統(tǒng)大致包括:用戶使用影視的歷史記錄、影視推薦算法、影視推薦結(jié)果的服務決策信息,其中影視推薦算法是核心,也是最為關(guān)鍵的部分。當前推薦算法大致可以劃分為4類:基于協(xié)同過濾的影視推薦算法、基于內(nèi)容的影視推薦算法、基于關(guān)聯(lián)規(guī)則的影視推薦算法、基于知識的影視推薦算法[7]。其中,協(xié)同過濾的影視推薦算法是最早的算法,可以細化為基于內(nèi)存的影視推薦算法和基于模型的影視推薦算法,在實際中該類算法不關(guān)心用戶歷史行為記錄,因此存在冷啟動和稀疏性問題,同時,影視推薦時間長,無法進行在線影視推薦[8⁃10]?;趦?nèi)容的影視推薦算法模擬信息檢索和過濾的過程,根據(jù)用戶的偏好和影視內(nèi)容之間的匹配度進行影視推薦,該類算法的自學習能力差,無法發(fā)現(xiàn)潛在的用戶;基于關(guān)聯(lián)規(guī)則的影視推薦算法工作過程簡單,影視推薦實時性強,但是存在冷啟動和稀疏性問題,同時一旦規(guī)則太多,那么影視推薦效率就比較低;基于知識的影視推薦算法是針對特定領域的影視制定推薦算法,因此通用性比較差[11⁃13]。綜合當前影視推薦算法的研究現(xiàn)狀可以發(fā)現(xiàn),每一種影視推薦算法或多或少存在一定的不足和局限性,因此影視推薦算法研究面臨巨大的挑戰(zhàn)[13⁃16]。

2基于數(shù)據(jù)挖掘技術(shù)的影視智能推薦算法

2.1影視數(shù)據(jù)的采集與保存

隨著計算機網(wǎng)絡的不斷發(fā)展,許多公司將一些影視數(shù)據(jù)發(fā)送到網(wǎng)絡上,使得影視數(shù)據(jù)急劇增加,當前影視數(shù)據(jù)呈現(xiàn)大規(guī)模、海量特征,采用傳統(tǒng)單機平臺進行影視推薦效率極低。本文首先采集大量的影視數(shù)據(jù),然后對影視數(shù)據(jù)進行預處理,并將預處理的影視數(shù)據(jù)保存在云平臺的分布式文件系統(tǒng)中。分布式文件系統(tǒng)具有速度快、處理能力強等優(yōu)點,可以存儲海量的影視數(shù)據(jù)。一個分布式文件系統(tǒng)包括一個NameNode和多個DataNode,其中NameNode是主服務器,它可以接收用戶請求,并對文件進行管理,而DataNode是多個計算機,主要用來存儲數(shù)據(jù),分布式文件系統(tǒng)的基本結(jié)構(gòu)具體如圖1所示。圖1分布式文件系統(tǒng)的基本結(jié)構(gòu)

2.2影視數(shù)據(jù)的預處理

由于影視數(shù)據(jù)保存在分布式文件系統(tǒng)中,因此需要生成用戶對影視的評分數(shù)據(jù)。用戶對影視的評分數(shù)據(jù)由三部分組成:用戶編號(U_ID)、影視編號(M_ID)、用戶對影視的評分(Score),本文采用云計算技術(shù)中的Map/Reduce實現(xiàn),生成用戶向量和影視向量,其中用戶向量是一個用戶對所有影視的評分,影視向量是所有用戶對一個影視的評分。2.2.1用戶向量生成步驟Step1:從分布式文件系統(tǒng)中讀取影視數(shù)據(jù),并計算用戶的影視評分。Step2:通過Map將用戶對影視的評分分為兩部分:U_ID和M_ID、Score,其中,U_ID作為Map的key,M_ID、Score作為Map的value,它們組成<key,value>。Step3:根據(jù)key進行排序,將key相同的用戶的影視評分放在一起。Step4:Reduce對相同用戶的影視評分數(shù)據(jù)進行整合,得到一個用戶對所有電影評分的集合。Step5:構(gòu)建用戶⁃影視評分矩陣,并計算它們的平均值,從而產(chǎn)生用戶評分向量。具體步驟如圖2所示2.2.2影視向量的生成步驟Step1:將用戶評分向量作為Map的輸入,對用戶評分向量進行分解,將M_ID作為key,將U_ID、Score作為Map的value,形成<key,value>。Step2:根據(jù)key進行排序,將key相同的用戶數(shù)據(jù)放在一起。Step3:Reduce對用戶數(shù)據(jù)進行整合,將得到的key作為M_ID,vU_ID、Score作為value,即為所有對影視評過分的用戶集合。Step4:將生成的數(shù)據(jù)保存在分布式文件系統(tǒng)中。具體如圖3所示。

2.3用戶⁃影視評分的構(gòu)建

用戶對影視的評分主要通過興趣程度描述,假設有m個用戶,對n部影視進行評價和打分,第i個用戶對第j部影視的評分分值為rij,本文采用Movielens的5分制作為評分標準,分值越高表示用戶對該部影視越感興趣,那么用戶⁃影視評分矩陣可以表示為:

2.4相似度計算

對于用戶⁃影視評分矩陣,根據(jù)用戶向量之間的距離估計用戶之間的相似度,用戶向量之間的距離越近,表示用戶的相似度越高,當前相似度的計算方式主要有:1)基于歐氏距離的相似度式中:rˉu表示用戶u共同評過分的影視的平均分;rˉv表示用戶v共同評過分的影視的平均分。本文采用皮爾遜相關(guān)系數(shù)計算用戶相似度。

2.5最近鄰算法查找到前k個最近鄰“鄰居”

對于給定的訓練樣本集,最近鄰算法根據(jù)樣本之間的距離找到最近的k個鄰居樣本,將k個鄰居頻率最高類別作為待識別類別。本文采用皮爾遜相關(guān)系數(shù)計算用戶的相似度,然后根據(jù)相似度值進行排序,選擇前k個最近鄰“鄰居”生成目標用戶的最近鄰用戶集合。

2.6計算預測評分并產(chǎn)生推薦

計算用戶預測評分,并根據(jù)用戶預測評分產(chǎn)生影視推薦結(jié)果,采用中心加權(quán)平均值的方法計算用戶u對未評分影視i的預測評分,具體如下。

3影視智能推薦算法的性能測試與分析

3.1影視智能推薦實驗數(shù)據(jù)集

為了測試基于數(shù)據(jù)挖掘技術(shù)的影視智能推薦算法的性能,采用影視推薦經(jīng)典數(shù)據(jù)集——Movielens數(shù)據(jù)集作為測試對象,從中選擇Movielens⁃100k進行具體仿真實驗,選擇80%的數(shù)據(jù)作為訓練樣本集合,20%的數(shù)據(jù)作為測試樣本集合,Movielens的三組不同規(guī)模的數(shù)據(jù)集具體如表1所示。

3.2影視智能推薦實驗環(huán)境

影視智能推薦實驗平臺包括5個節(jié)點、1臺服務器、4臺普通計算機,具體配置如表2所示,采用Java語言實現(xiàn)影視智能推薦算法。在相同條件下,選擇文獻[12⁃13]的影視智能推薦算法進行對比實驗,選擇影視智能推薦精度和時間作為實驗結(jié)果的評價指標。

3.3影視智能推薦精度對比

采用三種方法對訓練樣本集合進行學習,建立影視智能推薦模型,然后對測試樣本集合進行分析,統(tǒng)計每一種方法對每一個數(shù)據(jù)集的推薦精度,結(jié)果如圖4所示。從圖4可以看出,相對于文獻[12⁃13]的影視智能推薦算法,本文算法的影視智能推薦精度大幅度提升,減少了影視智能推薦誤差。

3.4影視智能推薦效率對比

采用單機平臺的影視智能推薦算法進行對比實驗,統(tǒng)計兩種方法的影視智能推薦時間,結(jié)果如圖5所示。從圖5可以發(fā)現(xiàn),相對于單機平臺,本文算法的影視智能推薦時間明顯減少,這是因為本文引入了大數(shù)據(jù)分析的云計算平臺,提高了影視智能推薦效率。

3.5影視智能推薦算法的通用性測試

為了測試影視智能推薦算法的通用性,通過移動網(wǎng)絡采集大量的影視數(shù)據(jù),將它們劃分為100類,統(tǒng)計本文算法對100類影視的推薦精度,結(jié)果如圖6所示。從圖6可以看出,本文算法的平均影視智能推薦精度超過了95%,獲得了令人滿意的推薦結(jié)果,能夠適應移動環(huán)境下的影視推薦應用要求。

4結(jié)語

影視智能推薦是當前人工智能技術(shù)中的研究熱點,針對傳統(tǒng)影視智能推薦算法存在的弊端,為了提高影視智能推薦的精度,本文提出基于數(shù)據(jù)挖掘技術(shù)的影視智能推薦算法。采用多個影視數(shù)據(jù)集合進行仿真測試,結(jié)果表明,相對于其他影視智能推薦算法,本文方法獲得了較高精度的影視智能推薦結(jié)果,影視智能推薦效率得以改善,具有十分廣泛的應用前景。

參考文獻

[1]陳琳娜.影視作品影響力評價指標體系和評價方法研究[J].南京藝術(shù)學院學報(音樂與表演),2017,22(4):165⁃174.

[2]鄧云,馮嘉禮.基于定性映射的影視推薦系統(tǒng)的應用與研究[J].現(xiàn)代計算機(專業(yè)版),2014(2):3⁃7.

[3]丁家滿,沈書琳,賈連印,等.一種基于協(xié)同過濾和混合相似性模型的推薦算法[J].上海理工大學學報,2020,42(3):275⁃282.

[4]劉曉飛,朱斐,伏玉琛,等.基于用戶偏好特征挖掘的個性化推薦算法[J].計算機科學,2020,47(4):50⁃53.

[5]羅國前,劉志勇,張琳,等.移動環(huán)境下基于情境感知的個性化影視推薦算法研究[J].計算機應用研究,2020,37(5):1306⁃1310.

[6]王珊珊.智能推薦系統(tǒng)在個性化數(shù)據(jù)挖掘中的應用研究[J].山東農(nóng)業(yè)工程學院學報,2019,36(6):28⁃29.

[7]王曉通.大數(shù)據(jù)背景下電影智能推送的“算法”實現(xiàn)及其潛在問題[J].當代電影,2019(5):64⁃70.

[8]王運,倪靜.基于用戶行為序列的概率矩陣分解推薦算法[J].小型微型計算機系統(tǒng),2020,41(7):1357⁃1362.

[9]王忠,周慶標,方杰,等.社會標簽情感分析的個性化影視推薦算法研究[J].電聲技術(shù),2012,36(7):58⁃63.

[10]徐紅艷,趙宏,王嶸冰,等.融合用戶相似度的影視推薦系統(tǒng)研究[J].遼寧大學學報(自然科學版),2018,45(3):193⁃200.

[11]陽甫軍,李博.基于協(xié)同過濾的影視營銷推薦算法研究[J].現(xiàn)代商貿(mào)工業(yè),2019,40(17):52⁃53.

[12]尤耀華,吳文琦.基于矩陣分解的感知興趣點智能推薦算法仿真[J].計算機仿真,2020,37(2):463⁃466.

[13]于亞新,劉夢,張宏宇.Twitter社交網(wǎng)絡用戶行為理解及個性化服務推薦算法研究[J].計算機研究與發(fā)展,2020,57(7):1369⁃1380.

[14]李家華.基于大數(shù)據(jù)的人工智能跨境電商導購平臺信息個性化推薦算法[J].科學技術(shù)與工程,2019,19(14):280⁃285.

[15]秦瑩.基于數(shù)據(jù)挖掘技術(shù)的電子商務移動支付風險預測[J].現(xiàn)代電子技術(shù),2020,43(21):106⁃109.

[16]潘瑩,王君.數(shù)據(jù)挖掘的光纖光柵傳感器復用解調(diào)技術(shù)[J].激光雜志,2020,41(10):187⁃191.

作者:王小青 蘇鋒 蔡傳根 單位:東北大學秦皇島分校管理學院 安徽理工大學