數(shù)據(jù)挖掘技術(shù)應(yīng)用于金融行業(yè)研究論文

時(shí)間:2022-09-09 08:13:00

導(dǎo)語(yǔ):數(shù)據(jù)挖掘技術(shù)應(yīng)用于金融行業(yè)研究論文一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。

數(shù)據(jù)挖掘技術(shù)應(yīng)用于金融行業(yè)研究論文

摘要:隨著計(jì)算機(jī)信息技術(shù)的發(fā)展,信息共享使得人們能得到越來(lái)越多的數(shù)據(jù)。與此同時(shí)出現(xiàn)了分析這些海量數(shù)據(jù)的一門(mén)技術(shù)——數(shù)據(jù)挖掘技術(shù)。本文首先介紹了數(shù)據(jù)挖掘技術(shù)的定義以及常用挖掘方法,然后介紹了數(shù)據(jù)挖掘技術(shù)在金融行業(yè)的典型應(yīng)用。

關(guān)鍵字:數(shù)據(jù)挖掘金融數(shù)據(jù)

金融部門(mén)每天的業(yè)務(wù)都會(huì)產(chǎn)生大量數(shù)據(jù),利用目前的數(shù)據(jù)庫(kù)系統(tǒng)可以有效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢(xún)、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致了數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。與此同時(shí),金融機(jī)構(gòu)的運(yùn)作必然存在金融風(fēng)險(xiǎn),風(fēng)險(xiǎn)管理是每一個(gè)金融機(jī)構(gòu)的重要工作。利用數(shù)據(jù)挖掘技術(shù)不但可以從這海量的數(shù)據(jù)中發(fā)現(xiàn)隱藏在其后的規(guī)律,而且可以很好地降低金融機(jī)構(gòu)存在的風(fēng)險(xiǎn)。學(xué)習(xí)和應(yīng)用數(shù)扼挖掘技術(shù)對(duì)我國(guó)的金融機(jī)構(gòu)有重要意義。

一、數(shù)據(jù)挖掘概述

1.數(shù)據(jù)挖掘的定義對(duì)于數(shù)據(jù)挖掘,一種比較公認(rèn)的定義是W.J.Frawley,G.PiatetskShapiro等人提出的。數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取人們感興趣的知識(shí)、這些知識(shí)是隱含的、事先未知的、潛在有用的信息,提取的知識(shí)表示為概念(Concepts),規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式。這個(gè)定義把數(shù)據(jù)挖掘的對(duì)象定義為數(shù)據(jù)庫(kù)。

隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,其應(yīng)用領(lǐng)域也不斷拓廣。數(shù)據(jù)挖掘的對(duì)象已不再僅是數(shù)據(jù)庫(kù),也可以是文件系統(tǒng),或組織在一起的數(shù)據(jù)集合,還可以是數(shù)據(jù)倉(cāng)庫(kù)。與此同時(shí),數(shù)據(jù)挖掘也有了越來(lái)越多不同的定義,但這些定義盡管表達(dá)方式不同,其本質(zhì)都是近似的,概括起來(lái)主要是從技術(shù)角度和商業(yè)角度給出數(shù)據(jù)挖掘的定義。

從技術(shù)角度看,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的和有用的信息和知識(shí)的過(guò)程。它是一門(mén)廣義的交叉學(xué)科,涉及數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)、模式識(shí)別、知識(shí)庫(kù)系統(tǒng)、知識(shí)獲取、信息檢索、高性能計(jì)算和數(shù)據(jù)可視化等多學(xué)科領(lǐng)域且本身還在不斷發(fā)展。目前有許多富有挑戰(zhàn)的領(lǐng)域如文本數(shù)據(jù)挖掘、Web信息挖掘、空間數(shù)據(jù)挖掘等。

從商業(yè)角度看,數(shù)據(jù)挖掘是一種深層次的商業(yè)信息分析技術(shù)。它按照企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性并進(jìn)一步將其模型化,從而自動(dòng)地提取出用以輔助商業(yè)決策的相關(guān)商業(yè)模式。

2.數(shù)據(jù)挖掘方法

數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)技術(shù)和人工智能技術(shù)發(fā)展的產(chǎn)物。從使用的技術(shù)角度,主要的數(shù)據(jù)挖掘方法包括:

2.1決策樹(shù)方法:利用樹(shù)形結(jié)構(gòu)來(lái)表示決策集合,這些決策集合通過(guò)對(duì)數(shù)據(jù)集的分類(lèi)產(chǎn)生規(guī)則。國(guó)際上最有影響和最早的決策樹(shù)方法是ID3方法,后來(lái)又發(fā)展了其它的決策樹(shù)方法。

2.2規(guī)則歸納方法:通過(guò)統(tǒng)計(jì)方法歸納,提取有價(jià)值的if-then規(guī)則。規(guī)則歸納技術(shù)在數(shù)據(jù)挖掘中被廣泛使用,其中以關(guān)聯(lián)規(guī)則挖掘的研究開(kāi)展得較為積極和深入。

2.3神經(jīng)網(wǎng)絡(luò)方法:從結(jié)構(gòu)上模擬生物神經(jīng)網(wǎng)絡(luò),以模型和學(xué)習(xí)規(guī)則為基礎(chǔ),建立3種神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)。這種方法通過(guò)訓(xùn)練來(lái)學(xué)習(xí)的非線性預(yù)測(cè)模型,可以完成分類(lèi)、聚類(lèi)和特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。

2.4遺傳算法:模擬生物進(jìn)化過(guò)程的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個(gè)基本算子組成。為了應(yīng)用遺傳算法,需要將數(shù)據(jù)挖掘任務(wù)表達(dá)為一種搜索問(wèn)題,從而發(fā)揮遺傳算法的優(yōu)化搜索能力。

2.5粗糙集(RoughSet)方法:Rough集理論是由波蘭數(shù)學(xué)家Pawlak在八十年代初提出的一種處理模糊和不精確性問(wèn)題的新型數(shù)學(xué)工具。它特別適合于數(shù)據(jù)簡(jiǎn)化,數(shù)據(jù)相關(guān)性的發(fā)現(xiàn),發(fā)現(xiàn)數(shù)據(jù)意義,發(fā)現(xiàn)數(shù)據(jù)的相似或差別,發(fā)現(xiàn)數(shù)據(jù)模式和數(shù)據(jù)的近似分類(lèi)等,近年來(lái)已被成功地應(yīng)用在數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)研究領(lǐng)域中。

2.6K2最鄰近技術(shù):這種技術(shù)通過(guò)K個(gè)最相近的歷史記錄的組合來(lái)辨別新的記錄。這種技術(shù)可以作為聚類(lèi)和偏差分析等挖掘任務(wù)。

2.7可視化技術(shù):將信息模式、數(shù)據(jù)的關(guān)聯(lián)或趨勢(shì)等以直觀的圖形方式表示,決策者可以通過(guò)可視化技術(shù)交互地分析數(shù)據(jù)關(guān)系??梢暬瘮?shù)據(jù)分析技術(shù)拓寬了傳統(tǒng)的圖表功能,使用戶(hù)對(duì)數(shù)據(jù)的剖析更清楚。

二、數(shù)據(jù)挖掘在金融行業(yè)中的應(yīng)用數(shù)據(jù)挖掘已經(jīng)被廣泛應(yīng)用于銀行和商業(yè)中,有以下的典型應(yīng)用:

1.對(duì)目標(biāo)市場(chǎng)(targetedmarketing)客戶(hù)的分類(lèi)與聚類(lèi)。例如,可以將具有相同儲(chǔ)蓄和貨款償還行為的客戶(hù)分為一組。有效的聚類(lèi)和協(xié)同過(guò)濾(collaborativefiltering)方法有助于識(shí)別客戶(hù)組,以及推動(dòng)目標(biāo)市場(chǎng)。

2..客戶(hù)價(jià)值分析。

在客戶(hù)價(jià)值分析之前一般先使用客戶(hù)分類(lèi),在實(shí)施分類(lèi)之后根據(jù)“二八原則”,找出重點(diǎn)客戶(hù),即對(duì)給銀行創(chuàng)造了80%價(jià)值的20%客戶(hù)實(shí)施最優(yōu)質(zhì)的服務(wù)。重點(diǎn)客戶(hù)的發(fā)現(xiàn)通常采用一系列數(shù)據(jù)處理、轉(zhuǎn)換過(guò)程、AI人工智能等數(shù)據(jù)挖掘技術(shù)來(lái)實(shí)現(xiàn)。通過(guò)分析客戶(hù)對(duì)金融產(chǎn)品的應(yīng)用頻率、持續(xù)性等指標(biāo)來(lái)判別客戶(hù)的忠誠(chéng)度;通過(guò)對(duì)交易數(shù)據(jù)的詳細(xì)分析來(lái)鑒別哪些是銀行希望保持的客戶(hù);通過(guò)挖掘找到流失的客戶(hù)的共同特征,就可以在那些具有相似特征的客戶(hù)還未流失之前進(jìn)行針對(duì)性的彌補(bǔ)。

3.客戶(hù)行為分析。

找到重點(diǎn)客戶(hù)之后,可對(duì)其進(jìn)行客戶(hù)行為分析,發(fā)現(xiàn)客戶(hù)的行為偏好,為客戶(hù)貼身定制特色服務(wù)??蛻?hù)行為分析又分為整體行為分析和群體行為分析。整體行為分析用來(lái)發(fā)現(xiàn)企業(yè)現(xiàn)有客戶(hù)的行為規(guī)律。同時(shí),通過(guò)對(duì)不同客戶(hù)群組之間的交叉挖掘分析,可以發(fā)現(xiàn)客戶(hù)群體間的變化規(guī)律,并可通過(guò)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清潔與集中過(guò)程,將客戶(hù)對(duì)市場(chǎng)的反饋?zhàn)詣?dòng)輸人到數(shù)據(jù)倉(cāng)庫(kù)中。通過(guò)對(duì)客戶(hù)的理解和客戶(hù)行為規(guī)律的發(fā)現(xiàn),企業(yè)可以制定相應(yīng)的市場(chǎng)策略。

4.為多維數(shù)據(jù)分析和數(shù)據(jù)挖掘設(shè)計(jì)和構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)。例如,人們可能希望按月、按地區(qū)、按部門(mén)、以及按其他因素查看負(fù)債和收入的變化情況,同時(shí)希望能提供諸如最大、最小、總和、平均和其他等統(tǒng)計(jì)信息。數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)立方體、多特征和發(fā)現(xiàn)驅(qū)動(dòng)數(shù)據(jù)立方體,特征和比較分析,以及孤立點(diǎn)分析等,都會(huì)在金融數(shù)據(jù)分析和挖掘中發(fā)揮重要作用。

5.貨款償還預(yù)測(cè)和客戶(hù)信用政策分析。有很多因素會(huì)對(duì)貨款償還效能和客戶(hù)信用等級(jí)計(jì)算產(chǎn)生不同程度的影響。數(shù)據(jù)挖掘的方法,如特征選擇和屬性相關(guān)性計(jì)算,有助于識(shí)別重要的因素,別除非相關(guān)因素。例如,與貨款償還風(fēng)險(xiǎn)相關(guān)的因素包括貨款率、資款期限、負(fù)債率、償還與收入(payment——to——income)比率、客戶(hù)收入水平、受教育程度、居住地區(qū)、信用歷史,等等。而其中償還與收入比率是主導(dǎo)因素,受教育水平和負(fù)債率則不是。銀行可以據(jù)此調(diào)整貨款發(fā)放政策,以便將貨款發(fā)放給那些以前曾被拒絕,但根據(jù)關(guān)鍵因素分析,其基本信息顯示是相對(duì)低風(fēng)險(xiǎn)的申請(qǐng)。

6.業(yè)務(wù)關(guān)聯(lián)分析。通過(guò)關(guān)聯(lián)分析可找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng),銀行存儲(chǔ)了大量的客戶(hù)交易信息,可對(duì)客戶(hù)的收人水平、消費(fèi)習(xí)慣、購(gòu)買(mǎi)物種等指標(biāo)進(jìn)行挖掘分析,找出客戶(hù)的潛在需求;通過(guò)挖掘?qū)蛻?hù)信息,銀行可以作為廠商和消費(fèi)者之間的中介,與廠商聯(lián)手,在掌握消費(fèi)者需求的基礎(chǔ)上,發(fā)展中間業(yè)務(wù),更好地為客戶(hù)服務(wù)。

7.洗黑錢(qián)和其他金融犯罪的偵破。要偵破洗黑錢(qián)和其他金融犯罪,重要的一點(diǎn)是要把多個(gè)數(shù)據(jù)庫(kù)的信息集成起來(lái),然后采用多種數(shù)據(jù)分析工具找出異常模式,如在某段時(shí)間內(nèi),通過(guò)某一組人發(fā)生大量現(xiàn)金流量等,再運(yùn)用數(shù)據(jù)可視化工具、分類(lèi)工具、聯(lián)接工具、孤立點(diǎn)分析工具、序列模式分析工具等,發(fā)現(xiàn)可疑線索,做出進(jìn)一步的處理。

數(shù)據(jù)挖掘技術(shù)可以用來(lái)發(fā)現(xiàn)數(shù)據(jù)庫(kù)中對(duì)象演變特征或?qū)ο笞兓厔?shì),這些信息對(duì)于決策或規(guī)劃是有用的,金融

行業(yè)數(shù)據(jù)的挖掘有助于根據(jù)顧客的流量安排工作人員??梢酝诰蚬善苯灰讛?shù)據(jù),發(fā)現(xiàn)可能幫助你制定投資策略的趨勢(shì)數(shù)據(jù)。挖掘給企業(yè)帶來(lái)的潛在的投資回報(bào)幾乎是無(wú)止境的。當(dāng)然,數(shù)據(jù)挖掘中得到的模式必須要在現(xiàn)實(shí)生活中進(jìn)行驗(yàn)證。

參考文獻(xiàn):

丁秋林,力士奇.客戶(hù)關(guān)系管理.第1版.北京:清華人學(xué)出版社,2002

張玉春.數(shù)據(jù)挖掘在金融分析中的應(yīng)用.華南金融電腦.2004

張嫻.數(shù)據(jù)挖掘技術(shù)及其在金融領(lǐng)域的應(yīng)用.金融教學(xué)與研究.2003

李寶東、宋瀚濤.數(shù)據(jù)挖掘在客戶(hù)管理(CRM)中的應(yīng)用[J],計(jì)算機(jī)應(yīng)用研究,2002