電商平臺(tái)用戶評(píng)論數(shù)據(jù)情感分析
時(shí)間:2022-10-28 08:54:48
導(dǎo)語:電商平臺(tái)用戶評(píng)論數(shù)據(jù)情感分析一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:以生鮮農(nóng)產(chǎn)品蘋果為研究對(duì)象,通過Python網(wǎng)絡(luò)爬蟲采集電商平臺(tái)上的文本評(píng)論數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行去重、清洗等基本的預(yù)處理操作后,進(jìn)行用戶情緒分類,并通過分詞處理、詞頻統(tǒng)計(jì)、詞云數(shù)據(jù)展示等方法對(duì)用戶評(píng)論文本數(shù)據(jù)進(jìn)行分析。通過LDA主題分析模型對(duì)評(píng)論數(shù)據(jù)進(jìn)行主題分析,從而通過多方面的分析獲取文本評(píng)論數(shù)據(jù)中有價(jià)值的內(nèi)容,對(duì)產(chǎn)品的改進(jìn)提出建議。
關(guān)鍵詞:文本數(shù)據(jù)挖掘;LDA主題模型;用戶評(píng)論;情感分析
1概述
隨著科技的發(fā)展和人們綜合素質(zhì)的提高,越來越多的人選擇網(wǎng)上購物,尤其是年輕人,大到汽車、家電,小到大米、蔬菜等農(nóng)副產(chǎn)品。最近幾年,生鮮類農(nóng)產(chǎn)品成了電商發(fā)展的新方向,生鮮電商巨大的市場(chǎng)前景吸引了眾多生鮮電商的積極入市,當(dāng)前,蘇寧、順豐、京東、阿里巴巴等電商企業(yè)紛紛向這方面進(jìn)軍。這種網(wǎng)上生鮮電商的服務(wù)模式,得到了社會(huì)大眾的青睞和認(rèn)可。當(dāng)前好多電商平臺(tái)取消了對(duì)用戶評(píng)論的分類,或者分類過于粗糙,缺乏指導(dǎo)價(jià)值,不利于商戶和用戶從大量的數(shù)據(jù)中提取有用信息。作為商品的經(jīng)營者,面對(duì)激烈的市場(chǎng)競(jìng)爭(zhēng),除了提高產(chǎn)品質(zhì)量、降低商品的價(jià)格、營銷方式的變革之外,了解更多消費(fèi)者的心聲變得越來越重要,其中常用的方式就是對(duì)評(píng)論者的文本數(shù)據(jù)進(jìn)行內(nèi)在信息的數(shù)據(jù)挖掘分析,幫助企業(yè)和商家推出受市場(chǎng)歡迎的產(chǎn)品。同時(shí)對(duì)消費(fèi)者而言,可以幫助消費(fèi)者了解產(chǎn)品的優(yōu)劣,幫助用戶進(jìn)行購買決策。本文從電商平臺(tái)用戶評(píng)論數(shù)據(jù)的獲取、采集和分析3個(gè)方面分析了基于電商平臺(tái)評(píng)論數(shù)據(jù)的用戶情感分析的一般流程如圖1所示。
2數(shù)據(jù)來源
經(jīng)前期的市場(chǎng)調(diào)查,蘋果在各種生鮮農(nóng)產(chǎn)品中有著廣泛的受眾群體,營養(yǎng)價(jià)值高,老少皆宜,易于儲(chǔ)存和運(yùn)輸,非常適合在網(wǎng)絡(luò)上銷售,無論自用還是送禮都有著巨大的消費(fèi)量。因此本文選擇京東商城生鮮農(nóng)產(chǎn)品,以新鮮水果蘋果為研究對(duì)象,對(duì)用戶的評(píng)價(jià)進(jìn)行情感分析。本文以當(dāng)前銷量排名第一的某品牌蘋果阿克蘇蘋果為例,京東商城自營店將蘋果產(chǎn)品的規(guī)格按果徑大小分為75~80mm15粒,80~85mm15粒,85~90mm14粒,90~95mm12粒,95~100mm10粒,約100mm8粒6個(gè)級(jí)別,截至目前已經(jīng)有累計(jì)69萬+評(píng)論,其中好評(píng)28萬+,中評(píng)3100+,差評(píng)2100+,數(shù)據(jù)量比較大,適合作電商用戶情感分析。
3基于網(wǎng)絡(luò)評(píng)價(jià)的農(nóng)產(chǎn)品情感分析
3.1評(píng)論數(shù)據(jù)的采集
本文使用Python編寫爬蟲程序,從京東商城網(wǎng)站上采集某品牌蘋果客戶的評(píng)論數(shù)據(jù)。采集了用戶編號(hào)、用戶評(píng)分、評(píng)論內(nèi)容、評(píng)論時(shí)間4個(gè)字段,并將采集到的數(shù)據(jù)保存MySQL數(shù)據(jù)庫中,如圖2所示。
3.2網(wǎng)絡(luò)評(píng)論數(shù)據(jù)詞云分析
對(duì)評(píng)論數(shù)據(jù)進(jìn)行重復(fù)值處理、過濾短句等操作之后,將數(shù)據(jù)分別按好評(píng)、中評(píng)、差評(píng)存放在相應(yīng)的文本文件中。其中評(píng)分大于3分的為好評(píng),等于3分的為中評(píng),小于3分的為差評(píng)。然后去除文本中的無用符號(hào)、過濾停用詞,對(duì)文本進(jìn)行jieba分詞和詞頻統(tǒng)計(jì)。分別取好評(píng)和差評(píng)的前30個(gè)高頻詞用詞云展示,如圖3所示。實(shí)驗(yàn)結(jié)果顯示,正面評(píng)價(jià)客戶的評(píng)論主要是對(duì)產(chǎn)品質(zhì)量和京東平臺(tái)服務(wù)的肯定,評(píng)論點(diǎn)主要集中在口感、包裝和物流;負(fù)面評(píng)價(jià)用戶的評(píng)論主要集中在是否為真正的阿克蘇蘋果、有無冰糖心、口感、產(chǎn)品質(zhì)量的穩(wěn)定性,以及對(duì)京東平臺(tái)客服的評(píng)價(jià)上。
3.3基于LDA模型的主題分析
3.3.1LDA模型介紹主題模型在機(jī)器學(xué)習(xí)和自然語言處理領(lǐng)域是用來在一系列文檔中發(fā)現(xiàn)抽象主題的一種統(tǒng)計(jì)模型。潛在狄利克雷分配(LatentDirichletAllocation,LDA)是由Blei等人在2003年提出的生成式主題模型。生成模型,即認(rèn)為每一篇文檔的每一個(gè)詞都是通過“一定的概率選擇了某個(gè)主題,并從這個(gè)主題中以一定的概率選擇了某個(gè)詞語”。LDA模型也被稱為3層貝葉斯概率模型,包含文檔(d)、主題(z)和詞(w)3層結(jié)構(gòu),能夠有效地對(duì)文本進(jìn)行建模,和傳統(tǒng)的空間向量模型(VSM)相比,增加了概率的信息。通過LDA主題模型,能夠挖掘數(shù)據(jù)集中的潛在主題,進(jìn)而分析數(shù)據(jù)集的集中關(guān)注點(diǎn)及相關(guān)特征詞。LDA模型假設(shè)每篇評(píng)論由各個(gè)主題按一定比例隨機(jī)混合而成,混合比例服從多項(xiàng)分布,記為:Z|θ=Multionomial(θ)而每個(gè)主題由詞匯表中的各個(gè)詞語按一定比例混合而成,混合比例也服從多項(xiàng)分布,記為:W|Z,φ=Mulinomial(φ)在評(píng)論dj條件下生產(chǎn)詞wi的概率表示為:P(wj|dj)=∑Ks=1P(wi|z=s)×P(z=s|dj)其中,P(wj|z=s)表示詞wi表示屬于第s個(gè)主題的概率,P(z=s|dj)表示第s個(gè)主題在評(píng)論dj中的概率。3.3.2LDA主題模型估計(jì)LDA模型對(duì)參數(shù)θ、φ的近似估計(jì)通常使用馬爾科夫鏈蒙特卡洛(MarkovChainMonteCarlo,MCMC)算法中的一個(gè)特例Gibbs抽樣。利用Gibbs抽樣對(duì)LDA模型進(jìn)行參數(shù)估計(jì),依據(jù)下式:P(zi=s|Z-i,W)∝ns,-i(+β)i/∑Vi=1ns,-i(+β)i×ns,-j(+α)s其中,zi=s|標(biāo)注詞wi屬于第s|個(gè)主題的概率,Z-i表示其他所有詞的概率,ns,-i表示不包含當(dāng)前詞wi的被分配到當(dāng)前主題zs下的個(gè)數(shù),ns,-j表示不包含當(dāng)前文檔dj的被分配到當(dāng)前主題zs下的個(gè)數(shù)。通過對(duì)上式的推導(dǎo),可以推導(dǎo)得到詞wi在主題zs中的分布參數(shù)估計(jì)φs,i,主題zs在評(píng)論dj中的多項(xiàng)分布的參數(shù)估計(jì)θj,s,如下:φs,i=ns,i(+β)/∑Vi=1ns,i(+β)iθj,s=nj,s(+α)s/∑Ks=1nj,s(+α)s其中,ns,i表示詞wi在主題zs中出現(xiàn)的次數(shù),nj,s表示文檔dj中包含主題zs的個(gè)數(shù)。3.3.3運(yùn)用LDA模型實(shí)現(xiàn)主題分析雖然LDA可以直接對(duì)文本作主題分析,但是為了避免正面評(píng)價(jià)和負(fù)面評(píng)價(jià)混淆在一起,并且由于分詞粒度的影響(否定詞或者程度詞等),從而可能在一個(gè)主題下產(chǎn)生一些令人迷惑的詞語。因此本文將文本分為正面評(píng)價(jià)和負(fù)面評(píng)價(jià)2個(gè)文本,再分別進(jìn)行LDA主題分析。根據(jù)采集數(shù)據(jù)時(shí)用戶的評(píng)分,將評(píng)論分為正面情感結(jié)果和負(fù)面情感結(jié)果。如果評(píng)分大于3分為正面情感結(jié)果,小于3分則為負(fù)面情感結(jié)果。然后再分別對(duì)正面評(píng)價(jià)和負(fù)面評(píng)價(jià)文本進(jìn)行jieba分詞和過濾停用詞,使用Python的Gensim庫完成LDA主題分析。經(jīng)LDA主題分析后,將評(píng)論文本聚類成3個(gè)主題,每個(gè)主題下生成10個(gè)最有可能出現(xiàn)的詞語及其相應(yīng)的概率。表1顯示了某品牌蘋果的正面評(píng)價(jià)文本中的潛在主題,表2顯示了負(fù)面評(píng)價(jià)文本中的潛在主題。根據(jù)對(duì)某品牌阿克蘇蘋果好評(píng)的3個(gè)潛在主題的特征詞提取,主題1的中高頻詞即某品牌、好吃、不錯(cuò)等,主要反映某品牌的蘋果好吃,值得購買;主題2中的高頻詞京東、包裝、好吃等,主要反映京東的運(yùn)輸和產(chǎn)品的質(zhì)量;主題3中的高頻詞京東、好、不錯(cuò)、好吃等,主要反映了京東的服務(wù)和產(chǎn)品的質(zhì)量。從對(duì)某品牌阿克蘇蘋果差評(píng)的3個(gè)潛在主題的特征詞提取,主題1的中高頻詞即阿克蘇、京東、冰糖心、失望等,主要反映的是對(duì)京東平臺(tái)提供的這批產(chǎn)品的不滿;主題2中的高頻詞阿克蘇、糖心、京東、這次等,主要反映的是這一次購物的失望,跟以前的差距大;主題3中的高頻詞冰糖心、吃、口感、差等,主要反映了該阿克蘇蘋果口感差,與描述不符。綜合以上主題及其中高頻詞的特征可以看出,某品牌阿克蘇蘋果的優(yōu)勢(shì)有以下幾個(gè)方面:口感好吃、包裝好、京東的服務(wù)好、值得購買。相對(duì)而言用戶的抱怨主要是:品質(zhì)不穩(wěn)定,沒有之前購買的好,在口感和大小上與描述的有差距。因此,用戶的購買原因可以總結(jié)為以下幾個(gè)方面:對(duì)某品牌和京東服務(wù)的信賴,對(duì)阿克蘇蘋果的口感和包裝認(rèn)可。根據(jù)對(duì)京東平臺(tái)上某品牌阿克蘇蘋果用戶評(píng)價(jià)情況進(jìn)行LDA主題模型分析,筆者對(duì)某品牌提出如下建議。在保持產(chǎn)品良好的包裝和性價(jià)比的基礎(chǔ)上,穩(wěn)定產(chǎn)品的質(zhì)量,在農(nóng)產(chǎn)品的分揀過程中嚴(yán)格把關(guān),不能以小充大,以次充好,影響品牌在消費(fèi)者心目中的形象。同時(shí)作為京東的自營商品,京東平臺(tái)也要對(duì)銷售商品負(fù)責(zé),提供完善的售后服務(wù),不能辜負(fù)了消費(fèi)者的信任。
4結(jié)論與展望
本文完整地展示了電商平臺(tái)下用戶評(píng)論數(shù)據(jù)的采集和分析流程,經(jīng)過對(duì)數(shù)據(jù)的清洗處理,采用詞頻統(tǒng)計(jì)和LDA主題分析模型,對(duì)用戶的評(píng)論數(shù)據(jù)進(jìn)行用戶情感分析,以京東電商平臺(tái)的生鮮農(nóng)產(chǎn)品蘋果為例,分析了客戶對(duì)該產(chǎn)品的評(píng)價(jià),并給出銷售建議。由于條件限制,本次實(shí)驗(yàn)數(shù)據(jù)采集量有限,文本主題聚類效果不是很理想,今后可以通過加大采集數(shù)據(jù)量,對(duì)模型進(jìn)一步優(yōu)化,提升實(shí)驗(yàn)效果,并應(yīng)用于其他產(chǎn)品和服務(wù)的分析。
參考文獻(xiàn):
[1]杜慧,陳云芳,張偉.主題模型中的參數(shù)估計(jì)方法綜述[J].計(jì)算機(jī)科學(xué),2017,44(S1):29-32+47.
[2]BleiDM,NgAY,JordanMI.LatentDirichletallocation[J].JournalofMachineLearningResearch,2003(3):2003.
[3]GaoJuan,XiaTian,LiJinTao,Adensitymethodforadap-tiveLDAmodelselection[J].Neurocomputing2009(72):1775-1781.
[4]郭立秀,基于文本挖掘的生鮮電商顧客滿意度研究[D].西安:西安交通大學(xué),2020.
[5]陳俊宇,基于文本挖掘的在線評(píng)論應(yīng)用研究[D].武漢:湖北工業(yè)大學(xué),2020.
[6]程翔,基于商品評(píng)論的情感分析的研究與應(yīng)用[D].北京:北京工業(yè)大學(xué),2020.
作者:蔣麗華 沈金羽 任怡 單位:蘇州農(nóng)業(yè)職業(yè)技術(shù)學(xué)院