煙草數(shù)據(jù)挖掘論文

時(shí)間:2022-03-26 04:00:38

導(dǎo)語(yǔ):煙草數(shù)據(jù)挖掘論文一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

煙草數(shù)據(jù)挖掘論文

1研究背景

目前現(xiàn)有的針對(duì)煙草營(yíng)銷策略的研究,多采用數(shù)據(jù)挖掘的思想,基于數(shù)據(jù)挖掘的營(yíng)銷策略是對(duì)終端客戶進(jìn)行分類,根據(jù)用戶的銷量和誠(chéng)信記錄把用戶分為多個(gè)等級(jí),但這種分級(jí)策略只能反應(yīng)用戶的銷量信息,把這個(gè)分類作為營(yíng)銷策略依據(jù)太單薄,只能起一定的輔助作用。更深入地研究是根據(jù)客戶的資料和歷史訂單數(shù)據(jù)對(duì)現(xiàn)有商戶進(jìn)行聚類,獲取到自主的商戶分類,但盲目的聚類會(huì)導(dǎo)致商戶的分類沒(méi)有實(shí)際意義,或獲取的結(jié)果是無(wú)助于營(yíng)銷目的的。

2技術(shù)關(guān)鍵

本系統(tǒng)采用基于營(yíng)銷目的的商戶聚類,技術(shù)關(guān)鍵包括三部分內(nèi)容:數(shù)據(jù)預(yù)處理中的特征選擇、基于限制目標(biāo)的商戶精確聚類和基于聚類結(jié)果的多層關(guān)聯(lián)規(guī)則算法的研究。

2.1特征選擇

假定獲取的數(shù)據(jù)的維數(shù)為n,通常情況下n是很大的一個(gè)數(shù),為簡(jiǎn)化模型,也為了防止模型陷入過(guò)擬合(維數(shù)災(zāi)難),需要進(jìn)行降維處理,即僅把對(duì)項(xiàng)目改造判定起關(guān)鍵作用的因素挑選出來(lái)。本系統(tǒng)采用PCA算法來(lái)進(jìn)行降維處理,過(guò)程如下:

1)計(jì)算標(biāo)準(zhǔn)化后的矩陣Z的樣本的協(xié)方差矩陣Cov;

2)計(jì)算協(xié)方差矩陣Cov的本征向量e1,e2,…,en的本征值。本征值按大到小排序;

3)投影數(shù)據(jù)

到本征矢張成的空間之中,利用貢獻(xiàn)分析取前m個(gè)向量Y1,Y2,…,Ym。

2.2基于營(yíng)銷目標(biāo)限制的商戶精確聚類算法

現(xiàn)有聚類算法一般沒(méi)有約束條件,只根據(jù)相似度來(lái)進(jìn)行聚類,為了能夠體現(xiàn)約束條件,需要在聚類相似度或者樣本距離之間把限制條件增加進(jìn)去,這樣在樣本聚類的時(shí)候即可使得具有相同營(yíng)銷特性的樣本或者客戶被劃分到同一個(gè)類中。煙草終端商戶的大部分屬性是分類屬性,例如:地區(qū)、類別等,此外還有數(shù)字型屬性、日期型屬性,由于存在不同類型的屬性,常規(guī)的聚類算法無(wú)法使用,為此,采用把數(shù)字屬性和日期屬性劃分區(qū)間的思路,這樣可以轉(zhuǎn)化成分類屬性的方式來(lái)進(jìn)行聚類。進(jìn)而可建立如下商戶模型:分類對(duì)象X∈Ω,X=[A1=x1]∧[A2=x2]∧…∧[Am=xm],其中xj∈DOM(Aj),1≤j≤m,為簡(jiǎn)便起見(jiàn),將對(duì)象X∈Ω用向量(x1,x2,…,xm)表達(dá),如果屬性Aj的值不存在,則Aj=ε。令Χ={X1,X2,…,Xn}為n個(gè)分類對(duì)象的集合,用集合方式表達(dá)分類對(duì)象,則Xi={xi,1,xi,2,…,xi,m},如果屬性Aj的值不存在,則集合中不出現(xiàn)xi,j,容易得到|Xi|≤m。如果存在Xi,j=Xk,j,1≤j≤m,則Xi=Xk。為方便聚類,利用聚類匯總來(lái)壓縮原始數(shù)據(jù),從而達(dá)到提高算法效率的目的。一個(gè)類C可以由如下三元組(n,I,S)來(lái)表示。其中n為類C中的對(duì)象數(shù)量,I={i1,i2,…,iu}是C內(nèi)所有屬性值的集合,S={s1,s2,…,su},其中sj為ij在類C中的數(shù)量,ij∈I,1≤j≤u。集合S按升序排列,即s1≤s2≤…≤su,這同時(shí)也暗示集合I的元素按其在C中的數(shù)量按升序排列。三元組(n,I,S)被稱作類C的聚類匯總CS,CS的三個(gè)成員分別記作CS.n、CS.I和CS.S;對(duì)于CS.I的任一元素ij∈CS.I,則記作CS.I.ij,對(duì)于sj∈CS.S,則記作CS.S.sj,其中1≤j≤u。

2.3基于煙草營(yíng)銷的多層關(guān)聯(lián)規(guī)則的研究

針對(duì)本項(xiàng)目,對(duì)關(guān)聯(lián)規(guī)則定義進(jìn)行擴(kuò)展,對(duì)形如:XY的關(guān)聯(lián)規(guī)則,不再限定X和Y為一個(gè)項(xiàng)目集,而把X和Y定義為條件的合取范式,每個(gè)條件Ai=True/False為布爾表達(dá)式。此時(shí)的Ai為一個(gè)項(xiàng)目集,它的含義與原來(lái)的X和Y的含義相同,如果把結(jié)果中的條件布爾表達(dá)式寫(xiě)成Cj=True/False,則關(guān)聯(lián)規(guī)則有如下形式:(A1=True/False)∧(A2=True/False)∧…∧(An=True/False)(C1=True/False)∧(C2=True/False)∧…∧(Cm=True/False)關(guān)聯(lián)規(guī)則的開(kāi)采問(wèn)題可以分解成以下兩個(gè)子問(wèn)題:

①?gòu)臄?shù)據(jù)集合或交易集合D中發(fā)現(xiàn)所有的頻繁項(xiàng)目集。

②從頻繁項(xiàng)目集中生成所有置信度不小于用戶定義的最小置信度minconf的關(guān)聯(lián)規(guī)則。即對(duì)任一個(gè)頻繁項(xiàng)目集F和F的所有非空真子集S,SF,如果sup(F)/sup(F-S)≥minconf,則(F-S)S就是一條有效的關(guān)聯(lián)規(guī)則。按上述方法發(fā)現(xiàn)所有類似的規(guī)則。這兩個(gè)步驟中第2步要相對(duì)容易,因此項(xiàng)目的研究將更關(guān)注第1步,由于最大頻繁項(xiàng)目集已經(jīng)隱含了所有頻繁項(xiàng)目集,所以可以把發(fā)現(xiàn)頻繁項(xiàng)目集的問(wèn)題轉(zhuǎn)化為發(fā)現(xiàn)最大頻繁項(xiàng)目集的問(wèn)題。針對(duì)煙草營(yíng)銷的客戶,進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),是在上一步的基礎(chǔ)上,即針對(duì)每一個(gè)商戶群進(jìn)行規(guī)則挖掘。在獲取到最大頻繁項(xiàng)目集后,順序生成頻繁項(xiàng)目集,然后獲取到可用的關(guān)聯(lián)規(guī)則。此時(shí)獲取的關(guān)聯(lián)規(guī)則是底層關(guān)聯(lián)規(guī)則,然后再采用概念樹(shù)的方法對(duì)獲取的底層關(guān)聯(lián)規(guī)則進(jìn)行匯總。概念樹(shù)由煙草領(lǐng)域?qū)<腋鶕?jù)屬性的領(lǐng)域知識(shí)提供,按特定屬性的概念層次從一般到具體排序。樹(shù)的根結(jié)點(diǎn)是用any表示最一般的概念,葉結(jié)點(diǎn)是最具體的概念即屬性的具體值。

在獲取多層關(guān)聯(lián)規(guī)則后,能靈活確定關(guān)聯(lián)規(guī)則的前后件,分析出不同層次各事務(wù)的關(guān)聯(lián)。能分析出任意兩個(gè)事務(wù)間的關(guān)聯(lián)關(guān)系;分析出任意一項(xiàng)事務(wù)與其他多項(xiàng)事務(wù)間的關(guān)聯(lián)關(guān)系;任意幾項(xiàng)事務(wù)與其他一項(xiàng)事務(wù)間的關(guān)聯(lián)關(guān)系,或者任意幾項(xiàng)事務(wù)與另外幾項(xiàng)事務(wù)間的關(guān)聯(lián)關(guān)系。如:某一時(shí)間,某品牌煙,商戶總進(jìn)貨量;某類別商戶,某品牌煙進(jìn)貨量;某商戶,某段時(shí)間,某卷煙進(jìn)貨量;某地址段,某品牌卷煙,商戶總進(jìn)貨量;某地址段,某段時(shí)間,某品牌卷煙,總進(jìn)貨量等等。

作者:耿曉斐單位:開(kāi)封煙草專賣(mài)局