數(shù)據(jù)挖掘技術(shù)對(duì)手機(jī)應(yīng)用市場的運(yùn)用
時(shí)間:2022-01-30 09:22:25
導(dǎo)語:數(shù)據(jù)挖掘技術(shù)對(duì)手機(jī)應(yīng)用市場的運(yùn)用一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
【摘要】在信息時(shí)代,移動(dòng)設(shè)備是人們生活必不可少的工具,而各類應(yīng)用則是移動(dòng)設(shè)備的功能所在。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,我們能夠看到手機(jī)應(yīng)用市場中不同應(yīng)用所起到的不同作用。本文將據(jù)此為背景,通過數(shù)據(jù)挖掘技術(shù)對(duì)手機(jī)應(yīng)用市場進(jìn)行淺析,為今后的應(yīng)用開發(fā)提出一些建議。同時(shí)根據(jù)對(duì)各類應(yīng)用的綜合分析設(shè)計(jì)手機(jī)應(yīng)用推薦系統(tǒng),為用戶提供質(zhì)量高且符合需求的應(yīng)用。
【關(guān)鍵詞】數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí);手機(jī)應(yīng)用;推薦系統(tǒng)
1前言
隨著移動(dòng)設(shè)備的普及與更新,人們對(duì)移動(dòng)設(shè)備功能的需求也日益增長。無論是購物、出行、社交還是娛樂,都離不開各式各樣的應(yīng)用。交流時(shí)打開微信、qq,不僅提高了交流效率,還能了解朋友的生活近況;無聊時(shí)打開一個(gè)游戲,馬上就能在其中獲得刺激與成就感;購物時(shí)打開手機(jī)支付寶掃一下二維碼,就能省去使用現(xiàn)金的麻煩,并且提高了貨幣流通的速度。手機(jī)應(yīng)用豐富了我們的精神生活,提高了物質(zhì)生活的品質(zhì)。但是隨著手機(jī)應(yīng)用的開發(fā)逐漸增多,手機(jī)應(yīng)用市場出現(xiàn)應(yīng)用質(zhì)量參差不齊的現(xiàn)象。同時(shí)在開發(fā)者和用戶之間還存在信息交換不對(duì)等的情況,即應(yīng)用開發(fā)者不能及時(shí)獲得準(zhǔn)確的市場信息從而無法設(shè)計(jì)出符合市場需求的應(yīng)用。并且在下載應(yīng)用時(shí),如果用戶僅憑人力逐個(gè)篩選質(zhì)量高、符合需求的應(yīng)用,是一件非常費(fèi)時(shí)的事情。本文基于數(shù)據(jù)挖掘技術(shù),使用了kaggle網(wǎng)站GooglePlayStoreApps的數(shù)據(jù)對(duì)手機(jī)應(yīng)用市場進(jìn)行簡單的剖析。我們希望通過對(duì)比評(píng)分、安裝數(shù)量等用戶反饋與應(yīng)用本身的信息,獲得手機(jī)應(yīng)用市場大致的需求情況,為手機(jī)應(yīng)用開發(fā)提供一定的參考,提出一些建議。并據(jù)此設(shè)計(jì)手機(jī)應(yīng)用推薦系統(tǒng),用戶為系統(tǒng)提供已下載應(yīng)用的名稱或者希望獲得應(yīng)用的種類,系統(tǒng)將據(jù)此為用戶推薦符合要求的應(yīng)用。
2數(shù)據(jù)概況
本文所使用的數(shù)據(jù)集主要包括應(yīng)用名稱(App)、種類(Cat-egory)、次種類(Genres)、應(yīng)用評(píng)分(Rating)、評(píng)論數(shù)量(Re-views)、評(píng)論情緒(Sentiment)、應(yīng)用大?。⊿ize)、安裝數(shù)量(In-stalls)、是否付費(fèi)與價(jià)格(TypeandPrice)、受眾群體(ContentRating)等字段,共計(jì)10841個(gè)應(yīng)用數(shù)據(jù)。
3手機(jī)應(yīng)用市場情況淺析
3.1應(yīng)用屬性的相關(guān)度對(duì)比。這份數(shù)據(jù)集分別列出了10841個(gè)應(yīng)用的多個(gè)屬性,我們希望通過分析這些屬性之間的關(guān)聯(lián)程度,大致找到手機(jī)應(yīng)用市場中的普遍規(guī)律與著重分析的切入點(diǎn)。通過利用EXCEL中的CORREL函數(shù),將應(yīng)用評(píng)分、評(píng)論數(shù)量、應(yīng)用大小以及安裝數(shù)量四個(gè)數(shù)值屬性的相關(guān)度進(jìn)行對(duì)比,形成一個(gè)5×5的CORREL表格。通過表格我們可以發(fā)現(xiàn),評(píng)論數(shù)量與安裝數(shù)量關(guān)聯(lián)程度最大,說明大部分用戶在使用該應(yīng)用后有及時(shí)的反饋,這有利于我們客觀地分析各應(yīng)用的綜合質(zhì)量。而應(yīng)用評(píng)分與其他三個(gè)屬性的相關(guān)度都相對(duì)較小,這說明安裝數(shù)量與評(píng)論數(shù)量多也即熱度高的應(yīng)用中用戶反饋并非都很好。由此得知,手機(jī)應(yīng)用市場中的目前供給還不能較好地符合市場需求,且用戶在選擇應(yīng)用時(shí)存在盲目選擇安裝的情況。下面我們對(duì)其中的三組屬性進(jìn)行更加詳細(xì)的對(duì)比與分析。3.2應(yīng)用評(píng)分和安裝數(shù)量。我們的數(shù)據(jù)集將所有的應(yīng)用分為33個(gè)類別,分別有活動(dòng)(EVENTS)、教育(EDUCATION)、藝術(shù)與設(shè)計(jì)(ART_AND_DE-SIGN)、圖書(BOOKS_AND_REFERENCE)、個(gè)性化(PERSON-ALIZATION)、育兒(PARENTING)、游戲(GAME)、美妝(BEAUTY)、健康與鍛煉(HEALTH_AND_FITNESS)等。在手機(jī)應(yīng)用市場中,不同種類的應(yīng)用受歡迎程度不一樣。我們希望通過統(tǒng)計(jì)分析,找到安裝人數(shù)較多,但是平均評(píng)分較低的應(yīng)用類別。我們認(rèn)為高安裝數(shù)、低評(píng)分值的應(yīng)用有更大的質(zhì)量提升價(jià)值和市場潛力。通過使用Excel的分類統(tǒng)計(jì)功能,我們?cè)趯?duì)應(yīng)用種類排序之后,使用應(yīng)用種類作為分類項(xiàng),統(tǒng)計(jì)不同種類應(yīng)用的平均評(píng)分(review_rating)和平均安裝數(shù)量(install_num),然后根據(jù)統(tǒng)計(jì)結(jié)果,獲得柱形圖和折線圖如圖1所示。通過分析可知,安裝數(shù)量最高的應(yīng)用為聊天(COMMUNICATION)類應(yīng)用,但是該類應(yīng)用的平均得分低于所有應(yīng)用的平均得分。因此聊天類的手機(jī)應(yīng)用在質(zhì)量上仍然具有較大的提升空間。同時(shí)由于其具備較高的商業(yè)價(jià)值,因此也具備更高的開發(fā)潛力。與之類似的應(yīng)用種類還有旅行類(TRAVEL_AND_LOCAL)和視頻類(VIDEO_PLAYERS)的應(yīng)用。相反,游戲(GAME)和社交類(SOCIAL)的手機(jī)應(yīng)用,安裝數(shù)量極大,同時(shí)評(píng)分也很高。這說明這部分市場是比較飽和的,所以我們不建議軟件開發(fā)初創(chuàng)者選擇這兩個(gè)種類的應(yīng)用進(jìn)行開發(fā)。3.3應(yīng)用評(píng)分和版本更新情況。手機(jī)應(yīng)用需要隨著需求的變化而不斷更新其功能和外觀。它體現(xiàn)了開發(fā)者對(duì)于市場需求變化做出的反應(yīng),因此版本較新的應(yīng)用往往比低版本的應(yīng)用更能滿足用戶需求,也更能最后更新時(shí)間較早、版本較低的應(yīng)用種類。此種應(yīng)用種類存在較大發(fā)展空間,已有應(yīng)用的開發(fā)者也可據(jù)此適當(dāng)進(jìn)行更新,提高應(yīng)用綜合水平。使用EXCEL,以種類為分類字段進(jìn)行分類匯總,將單一種類下所有應(yīng)用的總安裝次數(shù)進(jìn)行求和。同時(shí)對(duì)同一種類的應(yīng)用個(gè)數(shù)進(jìn)行計(jì)數(shù),得到N(總數(shù))。之后,我們使用過濾功能,只保留年份(Year)小于等于2017年的應(yīng)用樣本,再次進(jìn)行分類匯總,計(jì)算各個(gè)種類的應(yīng)用最后更新年份在2017年及以前的個(gè)數(shù)總和,得到N(舊),計(jì)算其占此種類應(yīng)用總數(shù)的百分比:P(舊)=N(舊)/N(總數(shù))該值越大,說明本種類應(yīng)用版本較低的占比較多,總體更新不到位。獲得33種應(yīng)用的P(舊)后,將其分別與安裝數(shù)量進(jìn)行對(duì)比。分析可知,聊天(COMMUNICATION)類應(yīng)用和游戲(GAME)安裝數(shù)量極大,但對(duì)于龐大的用戶群來說總體版本更新得并不快,說明這些應(yīng)用被開發(fā)出來后可以保持較長時(shí)間的熱度。經(jīng)過幾次更新后它們幾乎達(dá)到了最佳狀態(tài),所以應(yīng)用開發(fā)者可以著眼于開發(fā)全新的應(yīng)用而非繼續(xù)更新原有版本。飲食(FOOD_AND_DRINK)類和娛樂(ENTERTAINMENT)類應(yīng)用安裝數(shù)量較少,但更新得非常及時(shí),這體現(xiàn)了這些應(yīng)用的實(shí)時(shí)性。這類應(yīng)用需隨著時(shí)事更新而不斷變化,所以我們不建議大量投入開發(fā),而是注重每次更新時(shí)的優(yōu)化。
4手機(jī)應(yīng)用推薦系統(tǒng)
在同一種類(Category)的應(yīng)用中,用戶一般會(huì)根據(jù)應(yīng)用市場所給出的評(píng)分來選擇應(yīng)用。但是有些應(yīng)用雖然評(píng)分較高,但是安裝、評(píng)價(jià)數(shù)量較少,所以并不能客觀地體現(xiàn)這個(gè)應(yīng)用的綜合水平。而隨著時(shí)代的發(fā)展,應(yīng)用的版本新舊程度也逐漸成為是否能滿足當(dāng)代用戶需求的重要因素。據(jù)此,本文在設(shè)計(jì)手機(jī)應(yīng)用推薦系統(tǒng)的過程中,主要考慮應(yīng)用的所屬次種類(Gen-res)、應(yīng)用大?。⊿ize)、是否付費(fèi)(PayorFree)、受眾人群(Groups)以及與評(píng)價(jià)相關(guān)的多種因素。推薦過程分為兩個(gè)子過程:①計(jì)算相似度篩選應(yīng)用:根據(jù)用戶所給應(yīng)用所屬的一個(gè)或多個(gè)次種類(Genres)、應(yīng)用大小(Size)、是否付費(fèi)(Payor-Free)、受眾人群(Groups),計(jì)算應(yīng)用間的相似度,確定20個(gè)最相似的應(yīng)用;②計(jì)算綜合質(zhì)量對(duì)應(yīng)用排序:根據(jù)應(yīng)用評(píng)分(Rat-ing)、安裝數(shù)量(Installs)以及評(píng)價(jià)情緒(Sentiment)、評(píng)價(jià)客觀程度(Subjectivity)得出各應(yīng)用的綜合質(zhì)量,選擇綜合質(zhì)量排名前3的應(yīng)用推薦給用戶。4.1相似度。用戶為系統(tǒng)提供一個(gè)自己喜歡的應(yīng)用x,計(jì)算x所屬的種類(Category)中的每一個(gè)應(yīng)用,如y,和x之間的相似度———即計(jì)算所推薦應(yīng)用x與應(yīng)用y之間的歐幾里得距離,距離越小表示相似度越高,取距離最小的前20個(gè)應(yīng)用,作為和x最相似的應(yīng)用,作為推薦的候選項(xiàng)。其中,次種類(Genres)的值可能包含一個(gè)或多個(gè),預(yù)處理數(shù)據(jù)時(shí),應(yīng)將其拆分成多個(gè)種類。舉例說明,如果x的次種類為“Art&Design;Action&Adventure”,y的次種類為“Education;Action&Adventure”則Genres1=Art,Genres2=Design,Genres3=Action,Genres4=Adventure。x所屬的那一行,Genres1到Gen-res4的值均為1,y的Genres1,Genres2值為1,Genres3,Gen-res4的值為0。對(duì)于受眾人群(Groups),一共有“Adultsonly(18+)”,“Mature17+”“Teens(12-16)”“Ten+(10+)”“Everyone(0~100)”5種值。根據(jù)這些原先的值,我們將Group劃分為Group1:0~10歲,Group2:10~12歲,Group3:12~16歲,Group4:16~18歲,Group5:18歲以上。當(dāng)x的原先的值為“Ten+(10+)”,那Group1到Group5的值分別為0,1,1,1,1;當(dāng)x的原先的值為“Adultsonly(18+)”,那Group1到Group5的值分別為0,0,0,0,1;當(dāng)x的原先的值為“Mature17+”,那Group1到Group5的值分別為0,0,0,0,1;當(dāng)x的原先的值為“Everyone(0~100)”,那Group1到Group5的值分別為1,1,1,1,1;當(dāng)x的原先的值為“Teens(12~16)”,那Group1到Group5的值分別為0,0,1,1,1。針對(duì)是否付費(fèi)(PayorFree),使用1表示免費(fèi)(FREE),使用0表示付費(fèi)(NOT-FREE)。在計(jì)算相似度的時(shí)候,我們使用的是歐幾里得距離,公式如下:dx,y=∑ni=1(axi-ayi)22姨距離越近,表示x和y越相似。我們選擇dx,y最小的前20個(gè)y作為我們的候選應(yīng)用。4.2綜合評(píng)價(jià)。針對(duì)選擇出來的20個(gè)候選應(yīng)用,我們通過應(yīng)用評(píng)分(Rat-ing)、安裝數(shù)量(Installs)以及評(píng)價(jià)情緒(Sentiment)、評(píng)價(jià)客觀程度(Subjectivity)來進(jìn)一步對(duì)其質(zhì)量得分(grade)后篩選出最好的3個(gè)應(yīng)用。公式如下:Grade=avg(∑sentimenti×Subjectivityi)×Installys×Rating2,其中i表示某一個(gè)應(yīng)用的第i個(gè)評(píng)論。評(píng)價(jià)情緒(Sentiment)如果是積極的,那么得分為0~1之間,分?jǐn)?shù)越高越積極;評(píng)價(jià)情緒(Sentiment)如果是消極的,那么得分在-1~0之間,分?jǐn)?shù)越低越消極。評(píng)價(jià)客觀程度(Sub-jectivity)是指評(píng)論者的打分時(shí)的客觀程度。我們求出每一個(gè)應(yīng)用的平均評(píng)價(jià)情緒和其安裝數(shù)量、評(píng)分的平方相乘,得到應(yīng)用的質(zhì)量得分。得分越高,表示質(zhì)量越高,我們選擇質(zhì)量最高的3個(gè)應(yīng)用作為最終的推薦項(xiàng)。
5結(jié)論
本文利用大數(shù)據(jù)技術(shù),分析了手機(jī)應(yīng)用市場的潛在問題,并提出了建議和解決方案。并利用一萬多條應(yīng)用的信息,設(shè)計(jì)和建立了手機(jī)應(yīng)用推薦系統(tǒng),根據(jù)用戶的使用記錄,能夠?yàn)橛脩敉扑]內(nèi)容相近且質(zhì)量高的應(yīng)用。
參考文獻(xiàn)
[1]郭靖,郭晨峰.中國移動(dòng)互聯(lián)網(wǎng)應(yīng)用市場分析.移動(dòng)通信,2010(7):57~62.
[2]李迎辰.基于社交網(wǎng)絡(luò)的移動(dòng)應(yīng)用推薦系統(tǒng)研究及應(yīng)用[D].(Doctoraldissertation,重慶大學(xué)),2014.
[3]廖建新.大數(shù)據(jù)技術(shù)的應(yīng)用現(xiàn)狀與展望.電信科學(xué),2015(7):1~12.
作者:李可玥 單位:浙江省杭州學(xué)軍中學(xué)
熱門標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)管理論文 數(shù)據(jù)安全論文 數(shù)據(jù)庫論文 數(shù)據(jù)誤差 數(shù)據(jù)統(tǒng)計(jì) 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)采集 數(shù)據(jù)分析 心理培訓(xùn) 人文科學(xué)概論