數(shù)據(jù)挖掘技術應用于金融行業(yè)研究論文

時間:2022-09-09 08:13:00

導語:數(shù)據(jù)挖掘技術應用于金融行業(yè)研究論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘技術應用于金融行業(yè)研究論文

摘要:隨著計算機信息技術的發(fā)展,信息共享使得人們能得到越來越多的數(shù)據(jù)。與此同時出現(xiàn)了分析這些海量數(shù)據(jù)的一門技術——數(shù)據(jù)挖掘技術。本文首先介紹了數(shù)據(jù)挖掘技術的定義以及常用挖掘方法,然后介紹了數(shù)據(jù)挖掘技術在金融行業(yè)的典型應用。

關鍵字:數(shù)據(jù)挖掘金融數(shù)據(jù)

金融部門每天的業(yè)務都會產(chǎn)生大量數(shù)據(jù),利用目前的數(shù)據(jù)庫系統(tǒng)可以有效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導致了數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。與此同時,金融機構的運作必然存在金融風險,風險管理是每一個金融機構的重要工作。利用數(shù)據(jù)挖掘技術不但可以從這海量的數(shù)據(jù)中發(fā)現(xiàn)隱藏在其后的規(guī)律,而且可以很好地降低金融機構存在的風險。學習和應用數(shù)扼挖掘技術對我國的金融機構有重要意義。

一、數(shù)據(jù)挖掘概述

1.數(shù)據(jù)挖掘的定義對于數(shù)據(jù)挖掘,一種比較公認的定義是W.J.Frawley,G.PiatetskShapiro等人提出的。數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識、這些知識是隱含的、事先未知的、潛在有用的信息,提取的知識表示為概念(Concepts),規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式。這個定義把數(shù)據(jù)挖掘的對象定義為數(shù)據(jù)庫。

隨著數(shù)據(jù)挖掘技術的不斷發(fā)展,其應用領域也不斷拓廣。數(shù)據(jù)挖掘的對象已不再僅是數(shù)據(jù)庫,也可以是文件系統(tǒng),或組織在一起的數(shù)據(jù)集合,還可以是數(shù)據(jù)倉庫。與此同時,數(shù)據(jù)挖掘也有了越來越多不同的定義,但這些定義盡管表達方式不同,其本質都是近似的,概括起來主要是從技術角度和商業(yè)角度給出數(shù)據(jù)挖掘的定義。

從技術角度看,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的和有用的信息和知識的過程。它是一門廣義的交叉學科,涉及數(shù)據(jù)庫技術、人工智能、機器學習、神經(jīng)網(wǎng)絡、統(tǒng)計學、模式識別、知識庫系統(tǒng)、知識獲取、信息檢索、高性能計算和數(shù)據(jù)可視化等多學科領域且本身還在不斷發(fā)展。目前有許多富有挑戰(zhàn)的領域如文本數(shù)據(jù)挖掘、Web信息挖掘、空間數(shù)據(jù)挖掘等。

從商業(yè)角度看,數(shù)據(jù)挖掘是一種深層次的商業(yè)信息分析技術。它按照企業(yè)既定業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性并進一步將其模型化,從而自動地提取出用以輔助商業(yè)決策的相關商業(yè)模式。

2.數(shù)據(jù)挖掘方法

數(shù)據(jù)挖掘技術是數(shù)據(jù)庫技術、統(tǒng)計技術和人工智能技術發(fā)展的產(chǎn)物。從使用的技術角度,主要的數(shù)據(jù)挖掘方法包括:

2.1決策樹方法:利用樹形結構來表示決策集合,這些決策集合通過對數(shù)據(jù)集的分類產(chǎn)生規(guī)則。國際上最有影響和最早的決策樹方法是ID3方法,后來又發(fā)展了其它的決策樹方法。

2.2規(guī)則歸納方法:通過統(tǒng)計方法歸納,提取有價值的if-then規(guī)則。規(guī)則歸納技術在數(shù)據(jù)挖掘中被廣泛使用,其中以關聯(lián)規(guī)則挖掘的研究開展得較為積極和深入。

2.3神經(jīng)網(wǎng)絡方法:從結構上模擬生物神經(jīng)網(wǎng)絡,以模型和學習規(guī)則為基礎,建立3種神經(jīng)網(wǎng)絡模型:前饋式網(wǎng)絡、反饋式網(wǎng)絡和自組織網(wǎng)絡。這種方法通過訓練來學習的非線性預測模型,可以完成分類、聚類和特征挖掘等多種數(shù)據(jù)挖掘任務。

2.4遺傳算法:模擬生物進化過程的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個基本算子組成。為了應用遺傳算法,需要將數(shù)據(jù)挖掘任務表達為一種搜索問題,從而發(fā)揮遺傳算法的優(yōu)化搜索能力。

2.5粗糙集(RoughSet)方法:Rough集理論是由波蘭數(shù)學家Pawlak在八十年代初提出的一種處理模糊和不精確性問題的新型數(shù)學工具。它特別適合于數(shù)據(jù)簡化,數(shù)據(jù)相關性的發(fā)現(xiàn),發(fā)現(xiàn)數(shù)據(jù)意義,發(fā)現(xiàn)數(shù)據(jù)的相似或差別,發(fā)現(xiàn)數(shù)據(jù)模式和數(shù)據(jù)的近似分類等,近年來已被成功地應用在數(shù)據(jù)挖掘和知識發(fā)現(xiàn)研究領域中。

2.6K2最鄰近技術:這種技術通過K個最相近的歷史記錄的組合來辨別新的記錄。這種技術可以作為聚類和偏差分析等挖掘任務。

2.7可視化技術:將信息模式、數(shù)據(jù)的關聯(lián)或趨勢等以直觀的圖形方式表示,決策者可以通過可視化技術交互地分析數(shù)據(jù)關系??梢暬瘮?shù)據(jù)分析技術拓寬了傳統(tǒng)的圖表功能,使用戶對數(shù)據(jù)的剖析更清楚。

二、數(shù)據(jù)挖掘在金融行業(yè)中的應用數(shù)據(jù)挖掘已經(jīng)被廣泛應用于銀行和商業(yè)中,有以下的典型應用:

1.對目標市場(targetedmarketing)客戶的分類與聚類。例如,可以將具有相同儲蓄和貨款償還行為的客戶分為一組。有效的聚類和協(xié)同過濾(collaborativefiltering)方法有助于識別客戶組,以及推動目標市場。

2..客戶價值分析。

在客戶價值分析之前一般先使用客戶分類,在實施分類之后根據(jù)“二八原則”,找出重點客戶,即對給銀行創(chuàng)造了80%價值的20%客戶實施最優(yōu)質的服務。重點客戶的發(fā)現(xiàn)通常采用一系列數(shù)據(jù)處理、轉換過程、AI人工智能等數(shù)據(jù)挖掘技術來實現(xiàn)。通過分析客戶對金融產(chǎn)品的應用頻率、持續(xù)性等指標來判別客戶的忠誠度;通過對交易數(shù)據(jù)的詳細分析來鑒別哪些是銀行希望保持的客戶;通過挖掘找到流失的客戶的共同特征,就可以在那些具有相似特征的客戶還未流失之前進行針對性的彌補。

3.客戶行為分析。

找到重點客戶之后,可對其進行客戶行為分析,發(fā)現(xiàn)客戶的行為偏好,為客戶貼身定制特色服務??蛻粜袨榉治鲇址譃檎w行為分析和群體行為分析。整體行為分析用來發(fā)現(xiàn)企業(yè)現(xiàn)有客戶的行為規(guī)律。同時,通過對不同客戶群組之間的交叉挖掘分析,可以發(fā)現(xiàn)客戶群體間的變化規(guī)律,并可通過數(shù)據(jù)倉庫的數(shù)據(jù)清潔與集中過程,將客戶對市場的反饋自動輸人到數(shù)據(jù)倉庫中。通過對客戶的理解和客戶行為規(guī)律的發(fā)現(xiàn),企業(yè)可以制定相應的市場策略。

4.為多維數(shù)據(jù)分析和數(shù)據(jù)挖掘設計和構造數(shù)據(jù)倉庫。例如,人們可能希望按月、按地區(qū)、按部門、以及按其他因素查看負債和收入的變化情況,同時希望能提供諸如最大、最小、總和、平均和其他等統(tǒng)計信息。數(shù)據(jù)倉庫、數(shù)據(jù)立方體、多特征和發(fā)現(xiàn)驅動數(shù)據(jù)立方體,特征和比較分析,以及孤立點分析等,都會在金融數(shù)據(jù)分析和挖掘中發(fā)揮重要作用。

5.貨款償還預測和客戶信用政策分析。有很多因素會對貨款償還效能和客戶信用等級計算產(chǎn)生不同程度的影響。數(shù)據(jù)挖掘的方法,如特征選擇和屬性相關性計算,有助于識別重要的因素,別除非相關因素。例如,與貨款償還風險相關的因素包括貨款率、資款期限、負債率、償還與收入(payment——to——income)比率、客戶收入水平、受教育程度、居住地區(qū)、信用歷史,等等。而其中償還與收入比率是主導因素,受教育水平和負債率則不是。銀行可以據(jù)此調整貨款發(fā)放政策,以便將貨款發(fā)放給那些以前曾被拒絕,但根據(jù)關鍵因素分析,其基本信息顯示是相對低風險的申請。

6.業(yè)務關聯(lián)分析。通過關聯(lián)分析可找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng),銀行存儲了大量的客戶交易信息,可對客戶的收人水平、消費習慣、購買物種等指標進行挖掘分析,找出客戶的潛在需求;通過挖掘對公客戶信息,銀行可以作為廠商和消費者之間的中介,與廠商聯(lián)手,在掌握消費者需求的基礎上,發(fā)展中間業(yè)務,更好地為客戶服務。

7.洗黑錢和其他金融犯罪的偵破。要偵破洗黑錢和其他金融犯罪,重要的一點是要把多個數(shù)據(jù)庫的信息集成起來,然后采用多種數(shù)據(jù)分析工具找出異常模式,如在某段時間內(nèi),通過某一組人發(fā)生大量現(xiàn)金流量等,再運用數(shù)據(jù)可視化工具、分類工具、聯(lián)接工具、孤立點分析工具、序列模式分析工具等,發(fā)現(xiàn)可疑線索,做出進一步的處理。

數(shù)據(jù)挖掘技術可以用來發(fā)現(xiàn)數(shù)據(jù)庫中對象演變特征或對象變化趨勢,這些信息對于決策或規(guī)劃是有用的,金融

行業(yè)數(shù)據(jù)的挖掘有助于根據(jù)顧客的流量安排工作人員。可以挖掘股票交易數(shù)據(jù),發(fā)現(xiàn)可能幫助你制定投資策略的趨勢數(shù)據(jù)。挖掘給企業(yè)帶來的潛在的投資回報幾乎是無止境的。當然,數(shù)據(jù)挖掘中得到的模式必須要在現(xiàn)實生活中進行驗證。

參考文獻:

丁秋林,力士奇.客戶關系管理.第1版.北京:清華人學出版社,2002

張玉春.數(shù)據(jù)挖掘在金融分析中的應用.華南金融電腦.2004

張嫻.數(shù)據(jù)挖掘技術及其在金融領域的應用.金融教學與研究.2003

李寶東、宋瀚濤.數(shù)據(jù)挖掘在客戶管理(CRM)中的應用[J],計算機應用研究,2002