包裝產(chǎn)品精準(zhǔn)營(yíng)銷論文
時(shí)間:2022-10-10 09:15:57
導(dǎo)語(yǔ):包裝產(chǎn)品精準(zhǔn)營(yíng)銷論文一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:在當(dāng)今信息化社會(huì)中,人物關(guān)系網(wǎng)絡(luò)研究具有十分重要的意義,它蘊(yùn)含了巨大的商機(jī),并可應(yīng)用于不同的領(lǐng)域。在包裝產(chǎn)品信息分析中,文本信息是重要的基礎(chǔ)資源,將原始文本經(jīng)過(guò)命名實(shí)體識(shí)別、人物實(shí)體關(guān)系抽取、指代消解等技術(shù)處理后,構(gòu)建出人物社會(huì)關(guān)系網(wǎng)絡(luò)來(lái)服務(wù)于包裝產(chǎn)品的精準(zhǔn)營(yíng)銷,是一種行之有效的方法。實(shí)驗(yàn)結(jié)果表明,人物關(guān)系網(wǎng)絡(luò)構(gòu)建方法具有領(lǐng)域可移植性,它便于在大規(guī)模的網(wǎng)絡(luò)文本中對(duì)包裝產(chǎn)品相關(guān)文本進(jìn)行靈活分析,從而為包裝產(chǎn)品生產(chǎn)經(jīng)營(yíng)者精準(zhǔn)營(yíng)銷提供輔助決策功能,其方法具有較強(qiáng)的實(shí)用價(jià)值。
關(guān)鍵詞:人物關(guān)系網(wǎng)絡(luò);自然語(yǔ)言處理;精準(zhǔn)營(yíng)銷;包裝產(chǎn)品;結(jié)構(gòu)化信息
互聯(lián)網(wǎng)中的WEB文本以爆炸式的速度增長(zhǎng),其中蘊(yùn)含著豐富的人物社會(huì)關(guān)系。在基于WEB網(wǎng)頁(yè)的人物關(guān)系網(wǎng)絡(luò)構(gòu)建研究中,Kautz等[1]根據(jù)人名在個(gè)人主頁(yè)和合作論文等文檔中的共現(xiàn)頻率構(gòu)建了命名為Re-ferralWeb的社會(huì)關(guān)系網(wǎng)絡(luò)。Mika等[2]通過(guò)人物共現(xiàn)關(guān)系開(kāi)發(fā)了Flink網(wǎng)絡(luò)社區(qū)系統(tǒng)。Chang等[3]利用貝葉斯概率模型計(jì)算Wikipedia中人物實(shí)體之間的關(guān)系構(gòu)成人物關(guān)系網(wǎng)絡(luò)。姚從磊等[4]采用模擬退火算法發(fā)掘網(wǎng)絡(luò)文本中人物關(guān)系。王鵬等[5]利用個(gè)性化的圖書(shū)推薦算法構(gòu)建了基于社會(huì)網(wǎng)絡(luò)的圖書(shū)推薦系統(tǒng)。在基于純文本的人物關(guān)系網(wǎng)絡(luò)構(gòu)建研究中,Jing等[6]通過(guò)多種統(tǒng)計(jì)自然語(yǔ)言處理技術(shù)提取文本中的人物關(guān)系和事件,從而構(gòu)建相應(yīng)的人物關(guān)系網(wǎng)絡(luò)。Elson等[7]通過(guò)識(shí)別文學(xué)作品的兩個(gè)對(duì)話角色構(gòu)建人物關(guān)系網(wǎng)絡(luò)。Camp等[8]利用SVM分類器對(duì)人物關(guān)系進(jìn)行分類并構(gòu)建人物關(guān)系網(wǎng)絡(luò)。趙京勝等[9]應(yīng)用計(jì)算語(yǔ)言學(xué)技術(shù)和復(fù)雜網(wǎng)絡(luò)技術(shù),從文學(xué)作品《三國(guó)演義》中構(gòu)建社會(huì)網(wǎng)絡(luò)。彭成等[10]提出了一種以實(shí)體關(guān)系抽取技術(shù)為中心的社會(huì)網(wǎng)絡(luò)構(gòu)建方法。精準(zhǔn)營(yíng)銷是指在精準(zhǔn)定位的前提下通過(guò)現(xiàn)代信息技術(shù)構(gòu)建的顧客溝通服務(wù)體系[11]。人物關(guān)系網(wǎng)絡(luò)可為企業(yè)經(jīng)營(yíng)者、市場(chǎng)分析提供有價(jià)值的決策信息,服務(wù)于包裝產(chǎn)品精準(zhǔn)營(yíng)銷。同時(shí),自動(dòng)發(fā)現(xiàn)WEB文本中隱含的人物關(guān)系網(wǎng)絡(luò)對(duì)于精準(zhǔn)營(yíng)銷、好友推薦等應(yīng)用也十分重要。在包裝產(chǎn)品領(lǐng)域WEB文本中,研究一種基于自然語(yǔ)言處理技術(shù)自動(dòng)構(gòu)建人物關(guān)系網(wǎng)絡(luò)的方法非常有意義。所以,筆者利用基于樹(shù)核函數(shù)的人物關(guān)系抽取技術(shù)訓(xùn)練得到SVM分類模型,再將該模型應(yīng)用在包裝產(chǎn)品領(lǐng)域人物關(guān)系網(wǎng)絡(luò)挖掘中,為包裝產(chǎn)品的精準(zhǔn)營(yíng)銷提供決策依據(jù)。
1人物關(guān)系網(wǎng)絡(luò)構(gòu)建技術(shù)
1.1基于ACE語(yǔ)料庫(kù)的人物關(guān)系網(wǎng)絡(luò)組成。自2000年開(kāi)始,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院組織了自動(dòng)內(nèi)容抽取(AutomaticContentExtraction,ACE)評(píng)測(cè),目的是在機(jī)器學(xué)習(xí)技術(shù)基礎(chǔ)上解決用戶在進(jìn)行海量信息檢索、比較和判斷時(shí)面臨的困難。在ACE中文語(yǔ)料庫(kù)的633篇新聞文檔中,標(biāo)注的人物關(guān)系類型有靜態(tài)的人物社會(huì)關(guān)系(PER-SOC)和動(dòng)態(tài)的社會(huì)交互事件(CONTACT)轉(zhuǎn)化的社會(huì)交互關(guān)系,每種大類關(guān)系又被細(xì)分成具體的小類。它涵蓋了家庭成員關(guān)系、商業(yè)伙伴關(guān)系、社會(huì)交互關(guān)系、書(shū)信電話交互關(guān)系等多種靜態(tài)和動(dòng)態(tài)人物關(guān)系。基于ACE語(yǔ)料庫(kù)的人物關(guān)系網(wǎng)絡(luò)構(gòu)建需經(jīng)過(guò)圖1所示的人名實(shí)體識(shí)別、關(guān)系抽取、共指消解等步驟。1.2構(gòu)建人物關(guān)系網(wǎng)絡(luò)相關(guān)處理技術(shù)。在自然語(yǔ)言處理技術(shù)中,人名實(shí)體識(shí)別的準(zhǔn)確率很高,已接近商用化。其任務(wù)就是自動(dòng)標(biāo)注待處理文本中的人名、地名等命名實(shí)體??刹捎贸墒旃ぞ逽tanfordNamedEntityRecognizer來(lái)實(shí)現(xiàn)中文人名實(shí)體識(shí)別任務(wù)。除此之外,仍需經(jīng)過(guò)以下關(guān)鍵技術(shù)處理。1.2.1實(shí)體間關(guān)系抽取。對(duì)于人物實(shí)體關(guān)系抽取是人物關(guān)系網(wǎng)絡(luò)中的核心步驟,其目標(biāo)是通過(guò)一個(gè)句子中與兩個(gè)人名實(shí)體相關(guān)的信息,判斷這兩個(gè)人名實(shí)體是否存在關(guān)系以及存在何種關(guān)系。采用的方法是基于樹(shù)核函數(shù)的人物關(guān)系抽取技術(shù)確定句子中的兩個(gè)實(shí)體之間的關(guān)系。其關(guān)鍵技術(shù)是準(zhǔn)確刻畫(huà)實(shí)體相互關(guān)系的結(jié)構(gòu)化信息,即保留句法樹(shù)中的哪些部分作為結(jié)構(gòu)化信息表達(dá)形式。Zhang等[12]實(shí)驗(yàn)證明最短路徑包含樹(shù)形式的結(jié)構(gòu)化信息取得了最好的性能。文中在最短路徑包含樹(shù)的基礎(chǔ)上,根據(jù)新聞人物關(guān)系實(shí)例的長(zhǎng)語(yǔ)句文本特點(diǎn),通過(guò)刪除冗余信息和引入動(dòng)詞語(yǔ)言學(xué)特征,在人名實(shí)體的父節(jié)點(diǎn)加入同義詞詞林等語(yǔ)義信息來(lái)提高人物關(guān)系抽取的性能,同時(shí)使用重采樣技術(shù)[13]解決語(yǔ)料庫(kù)正負(fù)例樣本不平衡的問(wèn)題。為了充分利用實(shí)驗(yàn)語(yǔ)料,按照五倍交叉驗(yàn)證原則,將關(guān)系實(shí)例按照5∶1的比例分為訓(xùn)練集和測(cè)試集,最終獲得基于ACE語(yǔ)料庫(kù)的人物關(guān)系模型文件。1.2.2單文本指代消解。在自然語(yǔ)言描述中,指代是一種常見(jiàn)的語(yǔ)言表達(dá)現(xiàn)象,單文本指代消解是將篇章內(nèi)的指代現(xiàn)象進(jìn)行消解形成指代鏈的過(guò)程,例如指代鏈“他、總統(tǒng)、奧巴馬”等實(shí)體詞,指的都是同一個(gè)名詞性實(shí)體“奧巴馬”。為了更準(zhǔn)確地構(gòu)建人物關(guān)系網(wǎng)絡(luò),指向同一個(gè)人名實(shí)體必須合并為同一個(gè)結(jié)點(diǎn),從而提高人物關(guān)系網(wǎng)絡(luò)的表現(xiàn)力和實(shí)用性。文中將人物實(shí)體關(guān)系抽取得到相應(yīng)的關(guān)系模式泛化,使用新的關(guān)系模式重新檢索語(yǔ)料庫(kù)文本的方式來(lái)解決單文本指代消解問(wèn)題。1.2.3跨文本指代消解??缥谋局复馐桥袛嗖煌恼轮械膶?shí)體引用是否為同一個(gè)實(shí)體的過(guò)程,它的任務(wù)是將多個(gè)篇章中指向同一實(shí)體的所有指代詞形成同一指代鏈。其中“多名”現(xiàn)象指的是同一實(shí)體在不同文本中有不同的指代詞,“重名”現(xiàn)象指的是不同文檔中的相同指代詞指向不同的實(shí)體。針對(duì)跨文本指代消解問(wèn)題,首先將兩對(duì)同樣的人名實(shí)體(實(shí)體名稱及實(shí)體關(guān)系均相同)存在于不同的文檔中的關(guān)系實(shí)例合并,然后將指代消解問(wèn)題轉(zhuǎn)化為分類問(wèn)題,采用成熟的SVM分類模型解決跨文本指代消解中的重名消歧和多名聚合問(wèn)題。經(jīng)過(guò)以上步驟,將抽取到的人名實(shí)體間的關(guān)系作為網(wǎng)絡(luò)的邊,相應(yīng)的人名實(shí)體作為網(wǎng)絡(luò)結(jié)點(diǎn),歸并掉冗余的邊和結(jié)點(diǎn)后即形成人物關(guān)系網(wǎng)絡(luò)。
2包裝產(chǎn)品營(yíng)銷中的人物關(guān)系網(wǎng)絡(luò)
2.1基于包裝產(chǎn)品營(yíng)銷中的人物關(guān)系網(wǎng)絡(luò)組成。從包裝領(lǐng)域文本中挖掘人物關(guān)系進(jìn)而構(gòu)建人物關(guān)系網(wǎng)絡(luò)包括WEB網(wǎng)頁(yè)提取、分句、分詞和詞性標(biāo)注、句法分析及關(guān)系實(shí)例生成、人物實(shí)體關(guān)系抽取、指代信息處理等關(guān)鍵步驟,具體過(guò)程如圖2所示。對(duì)于人物實(shí)體關(guān)系抽取部分,首先將基于ACE語(yǔ)料庫(kù)的訓(xùn)練文件和手動(dòng)標(biāo)注的少量包裝產(chǎn)品領(lǐng)域文本的訓(xùn)練實(shí)例歸并為新的訓(xùn)練實(shí)例,通過(guò)SVM分類器訓(xùn)練得到基于包裝產(chǎn)品領(lǐng)域文本的人物關(guān)系模型文件,再對(duì)手動(dòng)標(biāo)注的大量測(cè)試實(shí)例進(jìn)行預(yù)測(cè),得到人物關(guān)系抽取的實(shí)驗(yàn)性能指標(biāo)。2.2包裝產(chǎn)品營(yíng)銷中的人物關(guān)系網(wǎng)絡(luò)處理方式在包裝產(chǎn)品的精準(zhǔn)營(yíng)銷中,運(yùn)用人物關(guān)系網(wǎng)絡(luò)表達(dá)的包裝領(lǐng)域人物關(guān)系,幫助用戶篩出所需要的信息,達(dá)到精準(zhǔn)營(yíng)銷的目的。在人物關(guān)系網(wǎng)絡(luò)處理中需要進(jìn)行如下的處理方式。2.2.1WEB網(wǎng)頁(yè)提取。以“全國(guó)先進(jìn)包裝企業(yè)名單”中200家企業(yè)門(mén)戶網(wǎng)站作為實(shí)驗(yàn)數(shù)據(jù)來(lái)源,通過(guò)搜索引擎獲取大量包裝領(lǐng)域相關(guān)網(wǎng)頁(yè)。根據(jù)網(wǎng)絡(luò)爬蟲(chóng)抓取到的網(wǎng)頁(yè)布局特點(diǎn),編寫(xiě)腳本程序提取網(wǎng)頁(yè)文章的標(biāo)題和正文,按照網(wǎng)頁(yè)為單位保存至對(duì)應(yīng)的文檔中;緊接著采用正則表達(dá)式過(guò)濾文檔中的噪聲信息。2.2.2文本預(yù)處理首先,將文檔中的“句號(hào)、感嘆號(hào)、問(wèn)號(hào)、省略號(hào)”作為句子終結(jié)符進(jìn)行分句;然后,采用中科院計(jì)算所的詞性標(biāo)注工具ICTCLAS進(jìn)行分詞,分詞工具還提供人名實(shí)體信息的詞性標(biāo)注;最后,根據(jù)上述詞性標(biāo)注的結(jié)果,凡是含有兩個(gè)及兩個(gè)以上人名實(shí)體的句子即為候選句。2.2.3句法分析及關(guān)系實(shí)例生成。首先,采用句法分析工具Charniakparser[14]對(duì)候選句進(jìn)行句法分析,獲得完整的句法樹(shù)信息;然后,將候選句中人名實(shí)體按照不同組合生成相應(yīng)的關(guān)系實(shí)例,并在關(guān)系實(shí)例的當(dāng)前兩個(gè)人名實(shí)體的詞性結(jié)點(diǎn)的相應(yīng)位置加入標(biāo)記結(jié)點(diǎn);最后,依據(jù)結(jié)構(gòu)化信息生成算法對(duì)完整句法樹(shù)進(jìn)行定向裁剪后生成關(guān)系實(shí)例。2.2.4人物實(shí)體關(guān)系抽取。根據(jù)ACE標(biāo)準(zhǔn)語(yǔ)料庫(kù)中訓(xùn)練實(shí)例和少量新標(biāo)注的包裝產(chǎn)品領(lǐng)域文本的訓(xùn)練實(shí)例,充分訓(xùn)練SVM分類器,得到新的分類模型文件對(duì)包裝產(chǎn)品領(lǐng)域的大量測(cè)試實(shí)例進(jìn)行關(guān)系抽取與分類,最終得到包裝領(lǐng)域WEB文本中蘊(yùn)含的人物關(guān)系。2.2.5指代信息處理。指代信息處理有助于提高人物關(guān)系網(wǎng)絡(luò)的真實(shí)性及表現(xiàn)力。根據(jù)分類模型抽取的人物關(guān)系實(shí)例,自動(dòng)提取兩個(gè)實(shí)體,并標(biāo)注實(shí)體間相互關(guān)系。由于包裝領(lǐng)域文本的絕大多數(shù)人名實(shí)體即為其人名全稱,不需要進(jìn)行指代消解。對(duì)于極少部分的指代現(xiàn)象采取人工歸并的方式處理,例如“西南地區(qū)銷售經(jīng)理、王強(qiáng)、他”為同一指代鏈,則使用名詞性實(shí)體“王強(qiáng)”替代。根據(jù)人物關(guān)系抽取獲取到的結(jié)點(diǎn)和邊,構(gòu)成了基于包裝領(lǐng)域文本的人物關(guān)系網(wǎng)絡(luò)。
3實(shí)驗(yàn)與結(jié)果分析
文中采用常用的準(zhǔn)確率(Precision)、召回率(Recall)和對(duì)應(yīng)的加權(quán)幾何平均值(F1-Measure)作為人物關(guān)系抽取性能評(píng)價(jià)標(biāo)準(zhǔn)。它們的定義如下Precision=C/T(1)Recall=C/N(2)F1-Measure=[P×R×(1+β2)]/[(P+R)×β2](3)其中,C為被正確分為某類的實(shí)例數(shù),N為測(cè)試樣本中某類的實(shí)例總數(shù),T為系統(tǒng)識(shí)別出某類實(shí)例的總數(shù),P為準(zhǔn)確率,R為召回率,β是召回率和準(zhǔn)確率的相對(duì)權(quán)重(文中)的β值取1)。表1中的“ACE和WEB”兩列展示了基于ACE語(yǔ)料庫(kù)和包裝領(lǐng)域WEB文本兩種文本來(lái)源所蘊(yùn)含的人物社會(huì)關(guān)系數(shù)量,表格的最后三列展示了在包裝領(lǐng)域WEB文本中進(jìn)行人物關(guān)系抽取的實(shí)驗(yàn)性能,TOTAL是PER-SOC和CONTACT兩類實(shí)例綜合在一起計(jì)算時(shí)的性能平均值。準(zhǔn)確率和召回率均取得了較好結(jié)果,這表明包裝領(lǐng)域WEB文本的語(yǔ)言結(jié)構(gòu)類似于ACE語(yǔ)料,同時(shí)也證明基于自然語(yǔ)言處理技術(shù)的人物關(guān)系網(wǎng)絡(luò)挖掘方法具有較好的領(lǐng)域可移植性。在ACE語(yǔ)料庫(kù)訓(xùn)練實(shí)例的基礎(chǔ)上,加入少量包裝領(lǐng)域文本的訓(xùn)練實(shí)例后生成的分類模型文件可以用于挖掘包裝領(lǐng)域的人物關(guān)系網(wǎng)絡(luò)。從實(shí)驗(yàn)結(jié)果還可以看出,ACE語(yǔ)料庫(kù)中文本以人物-社會(huì)關(guān)系中的家庭和商業(yè)伙伴關(guān)系為主,而包裝領(lǐng)域文本以社會(huì)交互事件中產(chǎn)生的社會(huì)交互關(guān)系為主。
4結(jié)語(yǔ)
由于文中提出的人物關(guān)系網(wǎng)絡(luò)挖掘方法具有較好的領(lǐng)域適應(yīng)性,因此在海量的包裝信息數(shù)據(jù)文本中,可以自動(dòng)抽取人名實(shí)體間有潛在價(jià)值的商業(yè)伙伴關(guān)系和社會(huì)交互關(guān)系,構(gòu)建包裝領(lǐng)域人物關(guān)系網(wǎng)絡(luò),從而為包裝領(lǐng)域挖掘出最有營(yíng)銷價(jià)值的客戶群體,為用戶提供有針對(duì)性的服務(wù),以實(shí)現(xiàn)高效營(yíng)銷。值得注意的是,文中介紹的包裝產(chǎn)品精準(zhǔn)營(yíng)銷依賴于大規(guī)模的數(shù)據(jù)文本,現(xiàn)階段原始數(shù)據(jù)有限,實(shí)驗(yàn)效果會(huì)受到制約,隨著對(duì)包裝領(lǐng)域網(wǎng)絡(luò)文本的深入挖掘,基于人物關(guān)系網(wǎng)絡(luò)的營(yíng)銷模式將發(fā)揮其優(yōu)勢(shì),成為企業(yè)高效的營(yíng)銷選擇,具有較強(qiáng)的實(shí)用價(jià)值。
作者:彭麗麗 奚雪峰 單位:蘇州科技大學(xué)