關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的分析及應(yīng)用

時(shí)間:2022-02-24 11:18:07

導(dǎo)語(yǔ):關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的分析及應(yīng)用一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的分析及應(yīng)用

摘要:數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中挖掘出有用的信息。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。文章分析了數(shù)據(jù)挖掘算法的關(guān)聯(lián)規(guī)則特性,對(duì)其在股票市場(chǎng)中的應(yīng)用進(jìn)行了重點(diǎn),以便更好的應(yīng)用在更多的領(lǐng)域。

關(guān)鍵詞:關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘算法;股票

1關(guān)聯(lián)規(guī)則

1.1關(guān)聯(lián)規(guī)則概述

數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類(lèi)重要的可被發(fā)現(xiàn)的知識(shí)。如果兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱(chēng)為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng),關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。近些年來(lái),很多業(yè)界人士對(duì)關(guān)聯(lián)規(guī)則挖掘進(jìn)行了詳細(xì)的探討,關(guān)聯(lián)規(guī)則挖掘已經(jīng)成為數(shù)據(jù)挖掘中的一個(gè)非常重要的課題。關(guān)聯(lián)規(guī)則概念是Agrawal等人在1993年首先提出的,與此同時(shí)還給出了一種性能相對(duì)較差的挖掘算法AIS。1994年,由于項(xiàng)目集格空間理論的建立,他們?cè)谝酝ɡ淼幕A(chǔ)上提出了著名的Apriori算法,這種算法目前仍作為關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法引起了人們的廣泛研究和討論。一開(kāi)始,關(guān)聯(lián)規(guī)則的產(chǎn)生主要是針對(duì)購(gòu)物籃分析問(wèn)題。對(duì)于分店經(jīng)理來(lái)說(shuō),如何更詳細(xì)更清楚的了解顧客的購(gòu)物習(xí)慣,尤其是想了解顧客可能會(huì)在一次購(gòu)物時(shí)同時(shí)購(gòu)買(mǎi)哪些商品?為此,我們對(duì)商店的顧客購(gòu)物零售數(shù)量進(jìn)行購(gòu)物籃分析。而顧客的購(gòu)物習(xí)慣就可通過(guò)他們放入“購(gòu)物籃”中的不同商品之間的關(guān)聯(lián)進(jìn)行分析,零售商也可以通過(guò)這種關(guān)聯(lián)分析了解哪些商品頻繁的被顧客同時(shí)購(gòu)買(mǎi),進(jìn)而有助于他們?cè)O(shè)計(jì)出更好的營(yíng)銷(xiāo)方案。與此同時(shí),一些知名的電子商務(wù)站點(diǎn)也可以從具有強(qiáng)大功能的關(guān)聯(lián)規(guī)則挖掘中獲得很大好處。通過(guò)使用關(guān)聯(lián)規(guī)則對(duì)數(shù)據(jù)進(jìn)行分析,這些電子購(gòu)物網(wǎng)站可以設(shè)置用戶有可能會(huì)同時(shí)購(gòu)買(mǎi)捆綁包,也有很多購(gòu)物網(wǎng)站設(shè)置了相應(yīng)的交叉銷(xiāo)售,具體是指顧客在購(gòu)買(mǎi)一種產(chǎn)品時(shí)會(huì)看到與該類(lèi)產(chǎn)品相關(guān)的另外一種產(chǎn)品的廣告。但是目前我國(guó)商業(yè)銀行在數(shù)據(jù)大集中之后,普遍面臨著“數(shù)據(jù)海量,信息缺乏”的窘迫情況。目前,在金融業(yè)所采用的數(shù)據(jù)庫(kù)中,大多數(shù)數(shù)據(jù)庫(kù)的功能層次都很低,只能夠簡(jiǎn)單的實(shí)現(xiàn)數(shù)據(jù)的錄入、統(tǒng)計(jì)、查詢等,根本發(fā)現(xiàn)不了數(shù)據(jù)中蘊(yùn)含的大量有實(shí)用價(jià)值的信息。綜上所述,可以說(shuō)在關(guān)聯(lián)規(guī)則挖掘技術(shù)方面,我國(guó)所進(jìn)行的應(yīng)用研究并不是很廣泛,而且也不夠深入。

1.2Apriori算法

使用關(guān)聯(lián)規(guī)則對(duì)數(shù)據(jù)進(jìn)行挖掘主要分兩個(gè)階段:第一階段必須先從原始資料集合中找出所有的高頻項(xiàng)目組,第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的第一階段中高頻的意思是指在所有記錄中某一項(xiàng)目組出現(xiàn)的頻率必須相對(duì)達(dá)到某一水平。這一項(xiàng)目組出現(xiàn)的頻率稱(chēng)為支持度。關(guān)聯(lián)規(guī)則挖掘的第二階段是利用前一步驟的高頻k-項(xiàng)目組來(lái)產(chǎn)生關(guān)聯(lián)規(guī)則,在最小信賴度的條件門(mén)檻下,要稱(chēng)之為關(guān)聯(lián)規(guī)則一規(guī)則所求得的信賴度滿足最小信賴度。Apriori算法是關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集的一種原創(chuàng)性算法。Apriori算法使用的是迭代方法。Apriori算法的核心算法思想是:該算法中有連接步和剪枝步兩個(gè)關(guān)鍵步驟。對(duì)于連接步來(lái)說(shuō),為了能夠找出Lk,即頻繁k項(xiàng)集,而通過(guò)Lk-1與自身相連接,產(chǎn)生候選k項(xiàng)集Ck;其中Lk-1的元素是能夠連接的。對(duì)于剪枝步來(lái)說(shuō),Ck是Lk的超集,也就是說(shuō)Ck的元素可以是頻繁的也可以不是頻繁的,但是所有的頻繁項(xiàng)集都包含在Ck中。對(duì)數(shù)據(jù)庫(kù)進(jìn)行掃描,將Ck中的每一個(gè)候選的計(jì)數(shù)加以確定,從而確定Lk。如果Ck很大,就會(huì)導(dǎo)致涉及的計(jì)算量變得很大。為了能夠壓縮Ck,通常會(huì)使用Apriori性質(zhì)。Apriori算法,使用逐層迭代找出頻繁項(xiàng)集。輸入:事務(wù)數(shù)據(jù)庫(kù)D;最小支持度閾值min_sup。輸出:D中的頻繁項(xiàng)集L。1)L1=find_frequent_1_itemset(sD);2)for(k=2;k++){3)Ck=aproiri_gen(Lk-1,min_sup);4)foreachtransactiontD{//掃描D用于計(jì)數(shù)5)Ct=subse(tCk,t);//得到t的子集,它們是候選6)foreachcandidate錯(cuò)誤!未找到引用源。Ct7)c.count++;8)}9)Lk={Ck|c.count≥min_sup}10)}11)returnL=錯(cuò)誤!未找到引用源。Lk;Procedureapriori_gen(Lk-1:frequent(k-1)-itemsets)重復(fù),返回Ck。1.3Apriori算法評(píng)價(jià)和改進(jìn)基于頻繁項(xiàng)集的Apriori算法采用了逐層搜索的迭代方法,該算法沒(méi)有復(fù)雜的理論推導(dǎo)過(guò)程,簡(jiǎn)單易懂,并且很容易實(shí)現(xiàn)。但是仍然存在一些不可避免的不足:掃描數(shù)據(jù)庫(kù)的次數(shù)過(guò)多。在Apriori算法的描述中,每生成一個(gè)候選項(xiàng)集,都要進(jìn)行一次全面的數(shù)據(jù)庫(kù)搜索。如果要生成的頻繁項(xiàng)集的最大長(zhǎng)度為N,那么就要掃描N次數(shù)據(jù)庫(kù)。在有限的內(nèi)存容量下,如果數(shù)據(jù)庫(kù)中存放的事務(wù)數(shù)據(jù)過(guò)多,就會(huì)使得系統(tǒng)過(guò)大,導(dǎo)致掃描數(shù)據(jù)庫(kù)時(shí)間變長(zhǎng),進(jìn)而造成效率低下的不良現(xiàn)象。Apriori算法過(guò)程中會(huì)產(chǎn)生很多的中間項(xiàng)集。Apriori_gen函數(shù)是用Lk-1產(chǎn)生候選Ck,而Ck是由k個(gè)項(xiàng)集組成的,所以k越大,所產(chǎn)生的候選k項(xiàng)集的數(shù)量就會(huì)以幾何級(jí)數(shù)的形式增加。采用唯一支持度,沒(méi)有綜合考慮到各個(gè)屬性的重要程度會(huì)有所不同。Apriori算法的適應(yīng)面是非常窄的,在實(shí)際的應(yīng)用過(guò)程中,可能出現(xiàn)數(shù)量的、多維的、多層的關(guān)聯(lián)規(guī)則,而Apriori算法只考慮單維布爾關(guān)聯(lián)規(guī)則的挖掘。因此,這種情況下Apriori算法就不能再應(yīng)用了,需要對(duì)其進(jìn)行進(jìn)一步的改進(jìn)。為了能夠提高Apriori算法的性能,目前已經(jīng)有許多變種對(duì)Apriori算法進(jìn)行擴(kuò)展和改進(jìn)。具體的改進(jìn)方法有以下幾個(gè)方面:(1)基于動(dòng)態(tài)的項(xiàng)目集計(jì)數(shù)該算法是將數(shù)據(jù)庫(kù)分成不同的部分,標(biāo)記最初的點(diǎn),對(duì)數(shù)據(jù)庫(kù)進(jìn)行重復(fù)掃描。該算法能夠在第二次掃描后完成所有的操作,它與Apriori算法最明顯的區(qū)別是能在任何開(kāi)始點(diǎn)增加新的候選項(xiàng)目集,在每個(gè)開(kāi)始點(diǎn),該算法對(duì)所有項(xiàng)目集的支持度進(jìn)行估計(jì),如果估計(jì)所有子集是頻繁的,就會(huì)把該項(xiàng)目集增加到候選項(xiàng)目集中。(2)基于劃分的方法PARTITION算法首先將數(shù)據(jù)庫(kù)分成若干個(gè)互相不重疊的子數(shù)據(jù)庫(kù),然后分別對(duì)子數(shù)據(jù)庫(kù)進(jìn)行頻繁項(xiàng)集的挖掘,最后將所有的局部頻繁項(xiàng)集合并作為整個(gè)交易庫(kù)的候選項(xiàng)集。該算法生成整個(gè)交易數(shù)據(jù)庫(kù)的頻繁項(xiàng)集只需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行兩次掃描即可。(3)基于hash技術(shù)通過(guò)hash技術(shù)的使用,在生成候選集時(shí),DHP能夠過(guò)濾掉更多的項(xiàng)集。因此每一次生成的候選集都會(huì)更加接近頻繁集,對(duì)于二項(xiàng)候選集的剪枝來(lái)說(shuō),這種技術(shù)是非常有效的。除此之外,DHP技術(shù)還能夠十分有效的降低每一次掃描數(shù)據(jù)庫(kù)的規(guī)模。

2關(guān)聯(lián)規(guī)則在股票數(shù)據(jù)挖掘分析及預(yù)測(cè)中的應(yīng)用

證券市場(chǎng)中的漲跌起伏往往是瞬息萬(wàn)變的,盡管如此,它還是存在著一定的規(guī)律:在某一段時(shí)間中,如果A股票出現(xiàn)上漲趨勢(shì),則B股票必然會(huì)隨之上漲;如果A股票在tl時(shí)刻出現(xiàn)上漲趨勢(shì),B股票在t2時(shí)(t2>tl)刻出現(xiàn)上漲趨勢(shì),則C股票必然會(huì)在t3(t3>t2)時(shí)刻上漲。前一條規(guī)律能夠用來(lái)對(duì)股票之間的相互關(guān)系進(jìn)行分析,后一條規(guī)律能夠用來(lái)對(duì)股票的漲跌進(jìn)行預(yù)測(cè),這些規(guī)律在投資者的實(shí)際決策過(guò)程中有著重要的參考價(jià)值和指導(dǎo)作用。

2.1選取數(shù)據(jù)

如果上市公司所經(jīng)營(yíng)的業(yè)務(wù)是相同或相近的,則在一段時(shí)間內(nèi)股票價(jià)格的走勢(shì)就會(huì)呈現(xiàn)出相似性;在一定時(shí)間內(nèi),屬于同一個(gè)區(qū)域的上市公司也會(huì)受到區(qū)域經(jīng)濟(jì)政策的直接影響,也會(huì)呈現(xiàn)出大體相同的變化形勢(shì);如果上市公司之間具有關(guān)聯(lián)交易,相互持股、控股,則它們之間也會(huì)產(chǎn)生某種相互作用。上述規(guī)則能夠通過(guò)關(guān)聯(lián)規(guī)則分析來(lái)發(fā)現(xiàn),然而更重要的是發(fā)現(xiàn)另一種表面上沒(méi)有很強(qiáng)的相關(guān)性、但是實(shí)際的股票價(jià)格卻具有很大關(guān)聯(lián)的規(guī)則。設(shè)股票行情數(shù)據(jù)D={X1,X2,…,Xi,…,Xn。},其中Xi(1<i<n)表示的是證券市場(chǎng)中某一只股票的歷史行情數(shù)據(jù),Xi={Ci,K1,K2,…,Km},C為股票代碼,Ki為Xi的第i個(gè)屬性變量,對(duì)應(yīng)最高價(jià)、日漲跌幅、最低價(jià)、成交量等屬性。本文選取的研究對(duì)象是滬深300指數(shù)成分股,樣本時(shí)間是從2010年9月2日到2011年9月1日一年的數(shù)據(jù)。分析可知,滬深300指數(shù)成分股能很好反映出上海和深圳證券市場(chǎng)的總體特征,具有很強(qiáng)的代表性。選取樣本時(shí)間從2010年9月2日到2011年9月1日這段時(shí)間的主要原因是:在這段時(shí)間中,大盤(pán)經(jīng)歷了上漲波段和下跌波段,滬深300指數(shù)最低到1598,最高達(dá)3256,而且上漲時(shí)間和下跌時(shí)間大致相同。本文數(shù)據(jù)均來(lái)源于CASMAR數(shù)據(jù)庫(kù),著重考慮股票價(jià)格變化之間存在的關(guān)聯(lián)關(guān)系,由于一天中股票價(jià)格有很多種,本文主要考慮的是收盤(pán)價(jià)。因此原始數(shù)據(jù)包含日期、股票代碼、收盤(pán)價(jià)三個(gè)變量,經(jīng)過(guò)處理數(shù)據(jù)中共有71268條記錄。

2.2數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是指在主要的處理以前對(duì)數(shù)據(jù)進(jìn)行的一些處理。在我們實(shí)際生活的世界中,數(shù)據(jù)大多數(shù)都是不完整并且不一致的,根本沒(méi)有辦法直接使用數(shù)據(jù)挖掘方法,或者會(huì)導(dǎo)致挖掘的結(jié)果不能讓人滿意。為了能夠有效的將數(shù)據(jù)挖掘的質(zhì)量提高,數(shù)據(jù)預(yù)處理技術(shù)便在這種形勢(shì)下產(chǎn)生了。數(shù)據(jù)預(yù)處理的方法有很多,具體包括:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)歸約,數(shù)據(jù)變換等。在對(duì)數(shù)據(jù)進(jìn)行挖掘之前,使用這些數(shù)據(jù)處理技術(shù),能夠在很大程度上提高數(shù)據(jù)挖掘模式的質(zhì)量,并且有效的減少挖掘所使用的時(shí)間。我們所要研究的是在一段時(shí)間內(nèi),股票價(jià)格變動(dòng)之間存在的關(guān)聯(lián)關(guān)系,因此只需對(duì)那些對(duì)投資有參考價(jià)值的數(shù)據(jù)進(jìn)行研究。在投資過(guò)程中,關(guān)系到投資者收益的重要指標(biāo)是收益率,在數(shù)據(jù)挖掘中所選用的是每天的漲跌幅。首先以收盤(pán)價(jià)為依據(jù),將每日的漲跌幅計(jì)算出來(lái),日漲跌幅就是當(dāng)日收盤(pán)價(jià)和上一個(gè)交易日收盤(pán)價(jià)之差與上一個(gè)交易日收盤(pán)價(jià)之比。計(jì)算公式如下:在分析過(guò)程中我們所感興趣的是那些每天的漲跌幅大于一定幅度的股票,因?yàn)樵诠善笔袌?chǎng)中,大多數(shù)股票會(huì)隨著大盤(pán)指數(shù)的漲跌而不斷發(fā)生變化,多數(shù)股票都會(huì)在大盤(pán)指數(shù)漲跌幅進(jìn)行上下波動(dòng),所以只有漲跌幅超過(guò)一定范圍的股票才具有研究意義。因此我們?cè)谶M(jìn)行分析之前,引入最小日漲跌幅Min-UpRat。最小日漲跌幅的值是以具體的股票行情為依據(jù)并由用戶確定的,本文選取Min-UpRat為3%,這主要是從以下幾個(gè)方面考慮:現(xiàn)階段,中國(guó)的證券市場(chǎng)還處于發(fā)展階段,尚不成熟。股票在牛市中會(huì)存在隨大盤(pán)指數(shù)普遍上漲的情況,因此只有對(duì)那些漲勢(shì)較為劇烈的股票進(jìn)行分析研究才會(huì)有實(shí)際意義。大部分股票在熊市中會(huì)出現(xiàn)普遍下跌的情況,出現(xiàn)上漲形勢(shì)的股票只有極少的一部分,漲勢(shì)能達(dá)到3%漲幅的股票更是少之又少。在樣本中添加一個(gè)新的變量,極為win,當(dāng)日漲跌幅大于最小日漲跌幅min-UpRat時(shí),win就記為1,日漲跌幅小于或等于最小日漲跌幅min-UpRat時(shí),win就記為0。在原始數(shù)據(jù)中,交易日期均為10個(gè)字符的字符型變量,共有244天。眾所周知,在進(jìn)行數(shù)據(jù)挖掘時(shí),字符長(zhǎng)度較大會(huì)占用大量的內(nèi)存,因此應(yīng)該盡量用簡(jiǎn)短的數(shù)據(jù)型變量來(lái)對(duì)其進(jìn)行替換。所以為了節(jié)省空間進(jìn)而提高運(yùn)行的效率,我們重新對(duì)交易時(shí)間變量進(jìn)行編碼,用1,2,…,244來(lái)標(biāo)記。將股票代碼均變?yōu)?位字符的字符型數(shù)據(jù),共有300只股票,分別用1,2,…,300標(biāo)識(shí)。在進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),直接處理對(duì)象是股票和日期的新編碼,間接處理對(duì)象是股票代碼和交易日期,這樣便可有效減少內(nèi)存的占用,有利于提高挖掘效率。企業(yè)實(shí)現(xiàn)這一切。其二是不斷提升客戶的價(jià)值:通過(guò)客戶盈利能力的相關(guān)具體化分析,進(jìn)一步挖掘和預(yù)測(cè)客戶本身所具有的盈利能力以及未來(lái)的具體變化;通過(guò)對(duì)客戶購(gòu)買(mǎi)模式的相關(guān)研究,實(shí)現(xiàn)客戶的細(xì)分化,這樣一來(lái)可以針對(duì)性的提供更加具有針對(duì)性的個(gè)性化服務(wù),從而能夠有效的實(shí)現(xiàn)多維化的交叉銷(xiāo)售。其三是維護(hù)好客戶,要及時(shí)的對(duì)客戶忠誠(chéng)度進(jìn)行分析研究,以防客戶流失。借助數(shù)據(jù)的深入研究和挖掘,及時(shí)分析好客戶的歷史交易記錄,提醒消費(fèi)者行為,并提出相應(yīng)的對(duì)策和建議。

2.3各行業(yè)中CRM的應(yīng)用

(1)零售業(yè)CRM中的數(shù)據(jù)挖掘零售業(yè)CRM它是數(shù)據(jù)挖掘領(lǐng)域中最重要的應(yīng)用方面,伴隨著網(wǎng)絡(luò)以及電子商務(wù)模式的不斷發(fā)展而呈現(xiàn)出繁榮發(fā)展的態(tài)勢(shì)。通過(guò)對(duì)零售數(shù)據(jù)的挖掘可以對(duì)客戶的購(gòu)買(mǎi)行為進(jìn)行識(shí)別和具體化的分析,并且及時(shí)發(fā)現(xiàn)客戶的購(gòu)買(mǎi)嗜好以及未來(lái)的購(gòu)買(mǎi)趨勢(shì),這樣便不斷提高了服務(wù)的質(zhì)量,為客戶滿意度的提高提供了條件。例如,我們可以借助多個(gè)特性化的數(shù)據(jù)進(jìn)行全面的銷(xiāo)售,這樣一來(lái)便實(shí)現(xiàn)了客戶與產(chǎn)品之間的多維聯(lián)系,使用多維、相關(guān)化的分析來(lái)做好促銷(xiāo)的有效性,借助序列模式我們可以挖掘客戶忠誠(chéng)度,通過(guò)相關(guān)性分析可以為購(gòu)買(mǎi)參考提供建設(shè)性的意見(jiàn)和建議。(2)電信業(yè)CRM中的數(shù)據(jù)挖掘當(dāng)前的電信行業(yè),已經(jīng)從純粹的市話服務(wù)領(lǐng)域不斷轉(zhuǎn)向提供一些綜合性的電信服務(wù)。它能夠把互聯(lián)網(wǎng)、電信網(wǎng)以及其他的各種通信和計(jì)算融合在一起,這是時(shí)展的大潮流。借助數(shù)據(jù)挖掘等相關(guān)技術(shù)可以為一些商業(yè)化的實(shí)踐提供條件,確定好電信服務(wù)的基本方式,捕捉每一個(gè)盜竊,從而更好地借助技術(shù)方面的資源,實(shí)現(xiàn)頗具人性的服務(wù)。電信數(shù)據(jù)一般具有多維化的分析功能,可以實(shí)現(xiàn)數(shù)據(jù)的識(shí)別與比較,更可以實(shí)現(xiàn)數(shù)據(jù)通信與系統(tǒng)負(fù)載等。通過(guò)量化分析,聚類(lèi)分析以及異常值分析對(duì)盜用、異常模式進(jìn)行識(shí)別和破解。(3)金融業(yè)CRM中的數(shù)據(jù)挖掘如今,大部分的銀行以及一些金融性的專(zhuān)業(yè)機(jī)構(gòu)能夠?yàn)榭蛻籼峁┝硕喾N選擇,例如最基本的儲(chǔ)蓄、投資以及信貸服務(wù)等。有時(shí)也可以提供一些保險(xiǎn)和股票服務(wù)。在金融市場(chǎng)中,數(shù)據(jù)生成已經(jīng)相對(duì)成熟,從整體看來(lái)金融領(lǐng)域的數(shù)據(jù)相對(duì)較完整、可靠,它為數(shù)據(jù)分析提供了基點(diǎn)。下面的幾個(gè)是平時(shí)常見(jiàn)的應(yīng)用情況:通過(guò)多維化的數(shù)據(jù)分析、挖掘可以做好數(shù)據(jù)倉(cāng)庫(kù)的基本任務(wù);通過(guò)特征比較研究做好數(shù)據(jù)的衡量和計(jì)算幫助客戶對(duì)貸款償還進(jìn)行科學(xué)化的預(yù)測(cè)和分析;通過(guò)分類(lèi)以及聚類(lèi)的方式對(duì)客戶群體進(jìn)行識(shí)別,對(duì)目標(biāo)市場(chǎng)進(jìn)行分析;借助數(shù)據(jù)的可視化以及關(guān)聯(lián)性分析對(duì)金融洗錢(qián)以及其他的一些金融犯罪進(jìn)行偵破。

作者:方 蓉 單位:惠州市廣播電視大學(xué)

參考文獻(xiàn)

[1]王一鴻.體檢中心CRM構(gòu)建及數(shù)據(jù)挖掘的應(yīng)用研究[D].華東理工大學(xué).2011

[2]潘光強(qiáng).基于數(shù)據(jù)挖掘的CRM設(shè)計(jì)與應(yīng)用研究[D].安徽工業(yè)大學(xué).2011

[3]石彥芳,石建國(guó),周檬.數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用[J].中國(guó)商貿(mào).2010(02)

[4]王芳,楊奕.論數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理(CRM)中的應(yīng)用[J].現(xiàn)代商貿(mào)工業(yè).2009(01)

[5]鄭玲,陶紅玉,闞守輝.數(shù)據(jù)挖掘在CRM中的應(yīng)用[J].中國(guó)電力教育.2008(S3)