數(shù)據(jù)分析分析技術(shù)范文

時間:2023-05-16 14:57:09

導(dǎo)語:如何才能寫好一篇數(shù)據(jù)分析分析技術(shù),這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

數(shù)據(jù)分析分析技術(shù)

篇1

[關(guān)鍵詞]數(shù)據(jù)倉庫聯(lián)機分析處理多維數(shù)據(jù)分析

中圖分類號:TP3文獻標(biāo)識碼:A文章編號:1671-7597(2009)1110077-01

一、引言

聯(lián)機分析處理(Online Analytical Processing,OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的,OLAP是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析。通過對信息(維數(shù)據(jù))的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入地觀察。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術(shù)核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。

二、OLAP的多維數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)在多維空間中的分布總是稀疏的、不均勻的。在事件發(fā)生的位置,數(shù)據(jù)聚合在一起,其密度很大。因此,OLAP系統(tǒng)的開發(fā)者要設(shè)法解決多維數(shù)據(jù)空間的數(shù)據(jù)稀疏和數(shù)據(jù)聚合問題。事實上,有許多方法可以構(gòu)造多維數(shù)據(jù)。

(一)超立方結(jié)構(gòu)。超立方結(jié)構(gòu)指用三維或更多的維數(shù)來描述一個對象,每個維彼此垂直。數(shù)據(jù)的測量值發(fā)生在維的交叉點上,數(shù)據(jù)空間的各個部分都有相同的維屬性。

這種結(jié)構(gòu)可應(yīng)用在多維數(shù)據(jù)庫和面向關(guān)系數(shù)據(jù)庫的OLAP系統(tǒng)中,其主要特點是簡化終端用戶的操作。超立方結(jié)構(gòu)有一種變形,即收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維。

(二)多立方結(jié)構(gòu)。在多立方結(jié)構(gòu)中,將大的數(shù)據(jù)結(jié)構(gòu)分成多個多維結(jié)構(gòu)。這些多維結(jié)構(gòu)是大數(shù)據(jù)維數(shù)的子集,面向某一特定應(yīng)用對維進行分割,即將超立方結(jié)構(gòu)變?yōu)樽恿⒎浇Y(jié)構(gòu)。它具有很強的靈活性,提高了數(shù)據(jù)的分析效率。

一般來說,多立方結(jié)構(gòu)靈活性較大,但超立方結(jié)構(gòu)更易于理解。超立方結(jié)構(gòu)可以提供高水平的報告和多維視圖。多立方結(jié)構(gòu)具有良好的視圖翻轉(zhuǎn)性和靈活性。多立方結(jié)構(gòu)是存儲稀疏矩陣的一個更有效方法,并能減少計算量。因此,復(fù)雜的系統(tǒng)及預(yù)先建立的通用應(yīng)用傾向于使用多立方結(jié)構(gòu),以使數(shù)據(jù)結(jié)構(gòu)能更好地得到調(diào)整,滿足常用的應(yīng)用需求。

許多產(chǎn)品結(jié)合了上述兩種結(jié)構(gòu),它們的數(shù)據(jù)物理結(jié)構(gòu)是多立方結(jié)構(gòu),但卻利用超立方結(jié)構(gòu)來進行計算,結(jié)合了超立方結(jié)構(gòu)的簡化性和多立方結(jié)構(gòu)的旋轉(zhuǎn)存儲特性。

三、OLAP的多維數(shù)據(jù)分析

多維數(shù)據(jù)分析是指對以多維形式組織起來的數(shù)據(jù)采取切片、切塊、旋轉(zhuǎn)和鉆取等各種分析動作,以求剖析數(shù)據(jù),使最終用戶能從多個角度、多側(cè)面地觀察數(shù)據(jù)倉庫中的數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。多維分析方式迎合了人們的思維模式,因:

(一)切片。定義1:在多維數(shù)組的某一維上選定一維成員的動作成為切片,即在多維數(shù)組(維1、維2、....維n,變量)中選一維:維i,并取其一維成員(設(shè)為“維成員vi”),所得的多維數(shù)組的子集(維1,...維成員vi,...,維n,變量)稱為在維i上的一個切片。

按照定義1,一次切片一定是原來的維數(shù)減1。所以,所得的切片并不一定是二維的“平面”,其維數(shù)取決于原來的多維數(shù)據(jù)的維數(shù),這樣的切片定義不通俗易懂。下面給出另一個比較直觀的定義。

定義2:選定多維數(shù)組的一個二維子集的動作叫做切片,既選定多維數(shù)組(維1、維2、....維n,變量)中的兩個維:維i和維j,在這兩個維上取某一區(qū)間或者任意維成員,而將其余的維都取定一個維成員,則得到的就是多維數(shù)組在維i和維j上的一個二維子集,稱這個二維子集為多維數(shù)組在維i和維j上的一個切片,表示為(維i和維j,變量)。

按照定義2,不管原來的維數(shù)有多少,數(shù)據(jù)切片的結(jié)果一定是一個二維的“平面”。從另一個角度來講,切片就是在某個或某些維上選定一個維成員,而在某兩個維上取一定區(qū)間的維成員或全部維成員。從定義2可知:

1.一個多維數(shù)組的切片最終是由該數(shù)組中除切片所在平面的兩個維之外的其它維的成員值確定的。

2.維是觀察數(shù)據(jù)的角度,那么切片的作用或結(jié)果就是舍棄一些觀察角度,使人們能在兩個維上來集中觀察數(shù)據(jù),因為人的空間想象力有限,所以,對于維數(shù)較多的多維數(shù)據(jù)空間,進行數(shù)據(jù)切片是十分有意義的。比照定義1,我們可以將切片的這兩個定義聯(lián)系起來,對于一個n維數(shù)組,按定義1進行的n-2切片的結(jié)果,就必定對應(yīng)于按定義2進行的某一次切片的結(jié)果。

(二)切塊。定義1:在多維數(shù)組的某一維上選定某一區(qū)間的維成員的動作稱為切塊,即限制多維數(shù)組在某一維的取值區(qū)間。顯然,當(dāng)這一區(qū)間只取一個維成員時,即得到一個切片。

定義2:選定多維數(shù)組的一個三維子集的動作稱為切塊,即選定多維數(shù)組(維1、維2、....維n,變量)中的三個維:維i、維j、維r,在這三個維上取某一區(qū)間或任意的維成員,而將其余的維都取定一個維成員,則得到的就是多維數(shù)組在維i、維j、維r上的三維子集,我們稱這個三維子集為多維數(shù)組在維i、維j、維r上的一個切塊,表示為(維i、維j、維r,變量)。切塊與切片的作用與目的是相似的。

(三)旋轉(zhuǎn)。旋轉(zhuǎn)既是改變一個報告或者頁面的維方向。例如:旋轉(zhuǎn)可能包含了交換行與列;或是把某一個行維移到列維,或是把頁面顯示中的一個維和頁面外的維進行交換(令其成為新的行或者列的一個)。

(四)鉆取。

鉆取處理是使用戶在數(shù)據(jù)倉庫的多層數(shù)據(jù)中,能夠通過導(dǎo)航信息而獲得更多的細節(jié)性數(shù)據(jù),鉆取一般是指向下鉆取。大多數(shù)的OLAP工具可以讓用戶鉆取至一個數(shù)據(jù)集中有更好細節(jié)描述的數(shù)據(jù)層,而更完整的工具可讓用戶隨處鉆取,即除一般往下鉆取外,隨處鉆取還包括向上鉆取和交叉鉆取。

(五)多視圖模式。人們發(fā)現(xiàn),獲取相同的信息,圖形顯示所帶來的直觀性有時是簡單的數(shù)據(jù)表所無法提供的。一個OLAP系統(tǒng),應(yīng)當(dāng)采取多種不同的格式顯示數(shù)據(jù),使用戶能夠獲得最佳的觀察數(shù)據(jù)的視角。

四、結(jié)語

隨著數(shù)據(jù)倉庫的發(fā)展,OLAP也得到了迅猛的發(fā)展。數(shù)據(jù)倉庫側(cè)重于存儲和管理面向決策主題的數(shù)據(jù),而OLAP則側(cè)重于數(shù)據(jù)倉庫中的數(shù)據(jù)分析,并將其轉(zhuǎn)換成輔助決策信息。OLAP的一個重要特點是多維數(shù)據(jù)分析,這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補充的關(guān)系。將有助于我們解決數(shù)據(jù)處理中的復(fù)雜問題。

參考文獻:

[1]彭木根,數(shù)據(jù)倉庫技術(shù)與實現(xiàn),電子工業(yè)出版社,2002.9.

篇2

關(guān)鍵詞 數(shù)據(jù)分析;工程;曲線回歸

中圖分類號TP392 文獻標(biāo)識碼A 文章編號 1674-6708(2013)86-0119-02

在科學(xué)技術(shù)飛速進步的當(dāng)今世界,石油一直是世界上最主要的供能能源,隨著石油化工產(chǎn)業(yè)的不斷進步與發(fā)展,石油化工檢測也迅速成長起來。在化工領(lǐng)域里,石油化工原料也被廣泛的應(yīng)用于各個部門,它是決定各個部門發(fā)展進度的至關(guān)重要的因素。因此,石油化工檢測的發(fā)展與成長也是必然的結(jié)果。

1 石油化工檢測

石油化工檢測是一門復(fù)合技術(shù),其將電子、自動化、信息處理、控制工程、計算機等多門學(xué)科有機的融為一體,并將其廣泛的應(yīng)用于生產(chǎn)自動化過程以及石油化工領(lǐng)域自動化裝備中。在石油化工原料的生產(chǎn)過程中,有毒或者易燃易爆氣體隨時都存在泄露的危險,有些嚴(yán)重的泄露事件甚至?xí){工人的生命財產(chǎn)安全,所以石油化工產(chǎn)業(yè)亦是一個高危產(chǎn)業(yè)。面對這些不容忽視的安全問題,嚴(yán)密的檢測程序在石油化工生產(chǎn)的過程中是必不可少的一個重要環(huán)節(jié)。隨著科學(xué)信息技術(shù)的飛速發(fā)展,檢測手段也在不斷的進行推陳出新,在其有機的結(jié)合了化學(xué)、物理、電機學(xué)、計算機和現(xiàn)代光學(xué)技術(shù)后,檢測技術(shù)也有了質(zhì)的飛躍。

如今在石油化工檢測的過程當(dāng)中,出現(xiàn)了許多如無損失檢測等的新設(shè)備,這些現(xiàn)代化科技設(shè)備的廣泛投入與應(yīng)用,無一不說明了石油化工產(chǎn)業(yè)的重要性。在如今的石油化工產(chǎn)業(yè)中,一個新興的概念正在逐步被人們所接受,它就是安全檢測體系以及安全評價。其中安全評價是經(jīng)由安全系統(tǒng)工程原理以及工程技術(shù)方法,對系統(tǒng)中有可能存在的危險性或固有危險性進行全面分析,也稱風(fēng)險評價和危險性評價,其包含危險性確認以及危險性評價兩個方面。我們也應(yīng)當(dāng)全面深入的找尋其可能存在的危險源,并對其進行認真的校對與考核。與此同時,我們還應(yīng)該對可能產(chǎn)生的后果進行分析與預(yù)測,并與當(dāng)今社會上工人的安全指標(biāo)進行認真比對,其值若在安全值范圍以內(nèi),便可認為其安全;若在安全值以外,則認為其不安全,我們應(yīng)當(dāng)對其采取適當(dāng)?shù)拇胧?,從而減少或者避免危險發(fā)生的可能性。

2數(shù)據(jù)檢測方法

2.1安全檢查表法數(shù)據(jù)分析

石油化工產(chǎn)品系數(shù)一般在一個安全的系數(shù)范圍之內(nèi),根據(jù)實驗發(fā)現(xiàn),這些所測的數(shù)據(jù)互相獨立,互不影響,所以這些數(shù)據(jù)呈現(xiàn)正態(tài)分布,所以檢測的數(shù)據(jù)應(yīng)該在該分布范圍之內(nèi)。所謂安全檢查表法,就是通過抽樣數(shù)據(jù),通過SPSS軟件計算出各數(shù)據(jù)之間的平均值以及標(biāo)準(zhǔn)方差,通過比較所測數(shù)據(jù)是否在平均值所在的標(biāo)準(zhǔn)方差范圍之內(nèi)。通過檢驗數(shù)據(jù)核對來衡量該數(shù)據(jù)值是否在安全檢測范圍之內(nèi)。在分析的過程中,可以將其與標(biāo)準(zhǔn)平均值的偏差與安全檢測標(biāo)準(zhǔn)方差的比值對其進行賦分,如果大于1說明偏差太大,產(chǎn)品不在安全范圍之內(nèi),如果為0,則產(chǎn)品在安全范圍之內(nèi)。

2.2預(yù)先危險性數(shù)據(jù)分析

在數(shù)據(jù)統(tǒng)計過程中,有一種分析方法為數(shù)據(jù)擬合,可對數(shù)據(jù)回歸分析,利用回歸分析函數(shù),預(yù)見系統(tǒng)的危險性。常用的數(shù)據(jù)回歸分析方法為二元Logistic回歸分析與曲線擬合分析。比如通過統(tǒng)計分析先前發(fā)生的事故的傳統(tǒng)安全數(shù)據(jù)系數(shù),對安全系數(shù)數(shù)據(jù)進行二元回歸擬合,得到輸入函數(shù),通過輸入函數(shù)來預(yù)見產(chǎn)品的危險性,以此來對產(chǎn)品做出相關(guān)的概括性評價統(tǒng)計,對于有害成分,觸發(fā)條件進行評價。預(yù)先危險性數(shù)據(jù)分析可以應(yīng)用到石油原油品質(zhì)分析中去。

2.3故障影響因素數(shù)據(jù)分析

在石油化工作業(yè)中,經(jīng)常會出現(xiàn)一些故障,這些故障發(fā)生的概率隨著工藝過程,各不相同,對于發(fā)生某次故障,或者發(fā)生變質(zhì)產(chǎn)品,肯定會有主要因素,但是如何才能得到主要因素,可以利用方差分析,利用方差分析是以兩個樣本作為比對對象,通過比對對象,來得到在一定置信區(qū)間內(nèi)的主要影響因素,分析的數(shù)據(jù)統(tǒng)計量需要滿足,各統(tǒng)計量之間符合正態(tài)分布,顯然影響因素之間是相對獨立,符合方差分析要求。通過統(tǒng)計數(shù)據(jù),進行方差分析,可以得到影響故障的主要因素,繼而對其進行評價。方差分析可以利用到石油管道故障,自動化儀表故障的主要因素分析中去。

2.頻率分析

石油化工檢測過程中,往往會發(fā)生不同類事故,多次發(fā)生,我們可以統(tǒng)計這些數(shù)據(jù)的頻率,通過頻率分析,進行參數(shù)估計,歸納其分布狀態(tài),可以看出其是否在置問之內(nèi)。常用的方法為頻率分析法。頻率分析,可以檢測發(fā)生事件的集中趨勢,離散程度以及分布偏度與峰度,通過模擬分布圖,可以有效判斷事件發(fā)生的合法性概率。事件頻率分析應(yīng)用較廣,可應(yīng)用到成品油質(zhì)量分析以及主要設(shè)備故障分析中。

3 結(jié)論

數(shù)據(jù)分析應(yīng)用較廣,如今的市場上存在著許多工作原理大同小異的有關(guān)于石油化工檢測的設(shè)備,這些設(shè)備最終的目的均是為了保障石油化工的安全生產(chǎn),但其實這只是石油化工檢測的冰山一隅。怎樣使正在上升的石油化工產(chǎn)業(yè)進行相對安全的生產(chǎn),使其事故率降到最低,是石油化工產(chǎn)業(yè)在未來發(fā)展中,至關(guān)重要的核心問題。為了能更好的適應(yīng)我國石油化工檢測的發(fā)展,我們可以針對我國石油化工產(chǎn)業(yè)發(fā)展的特點進行軟件開發(fā)。在其開發(fā)以及研究發(fā)展的過程中,國家應(yīng)當(dāng)出臺一些相應(yīng)的傾斜優(yōu)惠政策,這樣便會是這個新興的、充滿活力的產(chǎn)業(yè)迅速茁壯成長起來。

參考文獻

[1]李建,余昌斌.淺論石油化工檢驗概況[J].科學(xué)之友,2010(4).

[2]魏天飛. 展望先進的產(chǎn)品檢測技術(shù)——訪梅特勒-托利多產(chǎn)品檢測部門銷售經(jīng)理John Coleman[J].中國包裝工業(yè),2011(9).

[3]陳奧林,黃琦,蘭翔,鄭潔,侯勝,張昌華.雜散電流腐蝕防護與測試[J].管道技術(shù)與設(shè)備,2009(1).

篇3

關(guān)鍵詞:云計算;電力大數(shù)據(jù)分析技術(shù);應(yīng)用

中圖分類號:TM76 文獻標(biāo)識碼:A 文章編號:1007-9416(2017)02-0117-01

1 云計算在大數(shù)據(jù)分析技術(shù)探究

1.1 SQL語句

云計算系統(tǒng)的使用中,主要應(yīng)用SQL語句對電力系統(tǒng)中的信息資源進行存儲,例如:電力供應(yīng)系統(tǒng)中檢測電力輸送系統(tǒng)中,電流應(yīng)用總量,電流輸送區(qū)域的大小[1],電力時速送管理人員為了達到電力供應(yīng)的合理性分配,應(yīng)用云計算進行電流輸送的系統(tǒng)化分配,云計算系統(tǒng)結(jié)合計算機應(yīng)用系統(tǒng)的相關(guān)數(shù)據(jù),實現(xiàn)電力系統(tǒng)的資源供應(yīng)與電力資源區(qū)域性分配快速處理,從而到達電力供應(yīng)系統(tǒng)的資源供應(yīng)的數(shù)據(jù)信息處理結(jié)構(gòu)科學(xué)性的劃分。此外,SQL語句執(zhí)行電力系統(tǒng)的大數(shù)據(jù)信息時系統(tǒng)主要采用相對完善的SQL系統(tǒng)化程序,避免系統(tǒng)數(shù)據(jù)的應(yīng)用信息安全,避免應(yīng)用信息在使用受到外界病毒的直接入,實現(xiàn)了電力系統(tǒng)信息資源處理的安全性、系統(tǒng)性、科學(xué)性發(fā)展。

1.2 分層次處理技術(shù)

云計算系統(tǒng)的應(yīng)用,采用分層次處理技術(shù)對計算機處理系統(tǒng)進行系統(tǒng)處理,實現(xiàn)電力系統(tǒng)中建立的電力信息收集、電力信息存儲、電力數(shù)據(jù)應(yīng)用的結(jié)構(gòu)化管理,依據(jù)電力供應(yīng)中大數(shù)據(jù)管理系統(tǒng)進行系統(tǒng)分支化管理,從而達到電力系統(tǒng)資源在電力供應(yīng)各個系統(tǒng)之間相互聯(lián)系,又相互對立,云計算強大的SQL系統(tǒng)可以實現(xiàn)電力系統(tǒng)的大數(shù)據(jù)同一時間內(nèi)的分析計算。大大提高了電力供應(yīng)系統(tǒng)的數(shù)據(jù)處理速率,同時也保障我國電力系統(tǒng)數(shù)據(jù)處理的層次化管理[2]。

1.3 數(shù)據(jù)處理檢測技術(shù)

云計算在電力系統(tǒng)大數(shù)據(jù)處理技術(shù)中的應(yīng)用,采用算機數(shù)據(jù)處理檢測技術(shù),云計算系統(tǒng)中計算機應(yīng)用處理技術(shù)采用計算機自動化處理系統(tǒng),系統(tǒng)內(nèi)部能夠依據(jù)電力系統(tǒng)的處理信息,形成SQL系統(tǒng)語句檢測系統(tǒng),完善計算機自動化處理空間,使電力供應(yīng)系統(tǒng)的數(shù)據(jù)處理結(jié)構(gòu)可以得到應(yīng)用系統(tǒng)的數(shù)據(jù)應(yīng)用保障,實現(xiàn)我國電力管理系統(tǒng)的進一步智能化發(fā)展。

2 從云計算的優(yōu)勢分析應(yīng)用

2.1 處理速率快

云計算是現(xiàn)代計算機系統(tǒng)逐步開發(fā)的重要體現(xiàn)。云計算系統(tǒng)的運行以計算機內(nèi)部數(shù)據(jù)處理系統(tǒng)為基礎(chǔ),同時結(jié)合虛擬數(shù)據(jù)挖掘,進行計算機系統(tǒng)的進一步完善,虛擬空間的綜合性應(yīng)用,實現(xiàn)了云計算在電力大數(shù)據(jù)信息處理中,云計算的系統(tǒng)計算處理速率快,云計算的實現(xiàn)避免了傳統(tǒng)計算機大數(shù)據(jù)的整體性計算,而是采用計算機系統(tǒng)中SQL語句[3],保障計算機系統(tǒng)運行中,將整體化大數(shù)據(jù)分割成不同層次數(shù)據(jù),從而實現(xiàn)系統(tǒng)數(shù)據(jù)的綜合性運行,大大提高了計算機系統(tǒng)運行的計算縮率。

2.2 兼容性強

云計算在電力供應(yīng)中的應(yīng)用,實現(xiàn)了電力系統(tǒng)供應(yīng)中大數(shù)據(jù)處理技術(shù)的兼容性提高,云計算的計算方式主要應(yīng)用分布式處理系統(tǒng)對大數(shù)據(jù)信息進行控制,從而可以實現(xiàn)多種電力處理系統(tǒng)的信息管理資源在整體應(yīng)用中的綜合性探索[4],例如:當(dāng)電力大數(shù)據(jù)分析系統(tǒng)中的輸送電力系統(tǒng)的信息資源在初期存儲中受到嚴(yán)重的損壞,無法對后期的電力系統(tǒng)信息處理提供完善的信息資源,云計算能夠通過語句處理,實現(xiàn)對電力供應(yīng)系統(tǒng)的大數(shù)據(jù)分析系統(tǒng)進行調(diào)節(jié)與控制,系統(tǒng)中也可以將電力系統(tǒng)中,多種電力輸送系統(tǒng)的資源形式在同一種電力大數(shù)據(jù)處理系統(tǒng)中進行調(diào)節(jié)控制,完善不同的信息資源處理。由此可見,云計算在電力大數(shù)據(jù)處理系統(tǒng)中的應(yīng)用,為提高電力系統(tǒng)的信息應(yīng)用范圍額進一步完善提供新的技術(shù)支持。

2.3 數(shù)據(jù)存儲空間性大

云計算技術(shù)電力系統(tǒng)大數(shù)據(jù)處理中的應(yīng)用,擁有數(shù)據(jù)存儲空間性大的特點。電力資源作為社會發(fā)展的主要動力之一,在社會中的應(yīng)用范圍得到進一步提高,較大的電力資源容量為電力系統(tǒng)建設(shè)的進一步完善帶來問題。云計算采用虛擬空間存儲技術(shù),數(shù)據(jù)計算的存儲空間也主要應(yīng)用虛擬空間,為電力系統(tǒng)的大數(shù)據(jù)處理系統(tǒng)的綜合性應(yīng)用提供了較大的存儲空間,能夠保障逐步擴大的電力系統(tǒng)中大數(shù)據(jù)處理的完整性[5]。

3 結(jié)語

云計算系統(tǒng)是現(xiàn)代計算機系統(tǒng)的主要分支,云計算中應(yīng)用SQL系統(tǒng),分層次處理系統(tǒng)以及數(shù)據(jù)智能化檢測系統(tǒng)實現(xiàn)了系統(tǒng)資源的綜合性應(yīng)用,對云計算在電力大數(shù)據(jù)分析技術(shù)的探究,實現(xiàn)了電力系統(tǒng)的信息管理結(jié)構(gòu)逐步完善,為我國電力管理系統(tǒng)的進一步發(fā)展提供技術(shù)支持。

參考文獻

[1]彭小圣,鄧迪元,程時杰,文勁宇,李朝暉,牛林.面向智能電網(wǎng)應(yīng)用的電力大數(shù)據(jù)關(guān)鍵技術(shù)[J/OL].中國電機工程學(xué)報,2015(03).

[2]吳凱峰,劉萬濤,李彥虎,蘇伊鵬,肖政,裴旭斌,虎嵩林.基于云計算的電力大數(shù)據(jù)分析技術(shù)與應(yīng)用[J].中國電力,2015,02:111-116+127.

[3]劉楊.云計算與數(shù)據(jù)容災(zāi)技術(shù)在電力系統(tǒng)中的應(yīng)用研究[D].華北電力大學(xué),2015.

篇4

關(guān)鍵詞:數(shù)據(jù)挖掘;金融數(shù)據(jù)分析;Analysis Services

中圖分類號:TP274文獻標(biāo)識碼:A 文章編號:1009-3044(2009)36-10604-02

The Implement of Financial Data Analysis Module Base on SSAS Technology

HE Ying-gang, CHEN Jian-xiong

(Chengyi College, Jimei University, Xiamen 361021, China)

Abstract: Introduces a sample of design method to develop financial data analysis module by using the Data Mining technology. This sample use Microsoft SQL Server Analysis Services technology for analysis and forecasting. In practice, the operation of this module can improve the work efficiency offinancial analysts.

Key words: data mining; financial data analysis; analysis services

目前許多金融交易系統(tǒng)都為用戶提供了技術(shù)指標(biāo)的編寫工具。在編寫指標(biāo)計算公式時,往往有各種參數(shù)需要用戶進行選擇和設(shè)置,合理的參數(shù)組合所得出的結(jié)果可以使得用戶作出正確判斷,但是這類金融系統(tǒng)中并未提供最佳參數(shù)搜索功能,這使得用戶需要耗費許多時間對分析驗證參數(shù)。隨著數(shù)據(jù)挖掘技術(shù)的成熟和發(fā)展,為這類問題的解決提供了解決方法和途徑。

由于許多金融公司都有使用Microsoft SQL Server系列數(shù)據(jù)庫系統(tǒng)作為內(nèi)部系統(tǒng)的數(shù)據(jù)庫平臺,而微軟公司提供的Microsoft SQL Server 2005 Analysis Services (SSAS) 通過服務(wù)器和客戶端技術(shù)的組合為客戶提供聯(lián)機分析處理 (OLAP) 和數(shù)據(jù)挖掘功能。這使得我們可以在不改變現(xiàn)有數(shù)據(jù)庫系統(tǒng)的前提下,在原有的公司業(yè)務(wù)系統(tǒng)的基礎(chǔ)上開發(fā)數(shù)據(jù)挖掘分析模塊。基于SSAS本文提出了一種實現(xiàn)金融數(shù)據(jù)分析模塊的解決方案。

1 金融數(shù)據(jù)分析模塊的數(shù)據(jù)挖掘功能的設(shè)計

1.1 功能設(shè)計

金融數(shù)據(jù)分析模塊主要應(yīng)用于對指標(biāo)參數(shù)的搜索,尋找最合適的指標(biāo)參數(shù)值。所以系統(tǒng)應(yīng)具有的功能有:1)根據(jù)用戶的需要,提供指標(biāo)公式設(shè)計和參數(shù)設(shè)置;2)提供靈活直觀的圖形顯示;3)用戶能夠指定數(shù)據(jù)挖掘算法的參數(shù)值,并查看數(shù)據(jù)挖掘生成的規(guī)則。

1.2 結(jié)構(gòu)設(shè)計

數(shù)據(jù)分析模塊的設(shè)計采用了三層體系結(jié)構(gòu),分別為:1)數(shù)據(jù)訪問層,實現(xiàn)對金融日志數(shù)據(jù)的采集、清理和轉(zhuǎn)換;2)數(shù)據(jù)挖掘業(yè)務(wù)層;3)分析結(jié)果表示層,表示層把各種參數(shù)組合所對應(yīng)的數(shù)據(jù)挖掘分析結(jié)果以圖形化或表格化的方式展現(xiàn)出來,方便用戶能夠?qū)Ρ雀鞣N參數(shù)組合的優(yōu)劣。為了避免對數(shù)據(jù)庫系統(tǒng)性能造成影響,模塊使用獨立的數(shù)據(jù)倉庫系統(tǒng)。開發(fā)框架如圖1所示。

2 金融數(shù)據(jù)分析模塊的數(shù)據(jù)挖掘功能模塊的實現(xiàn)和關(guān)鍵技術(shù)

指標(biāo)公式參數(shù)的求解是一類系統(tǒng)優(yōu)化問題。遺傳算法是一種求最優(yōu)解或近似最優(yōu)解的全局優(yōu)化搜索算法。使用遺傳算法比傳統(tǒng)的枚舉算法和啟發(fā)式算法具有諸多優(yōu)點,例如:搜索使用評價函數(shù)啟發(fā),過程簡單;搜索從群體出發(fā),具有并行性;與問題領(lǐng)域無關(guān)的快速隨機搜索能力等等。由于SSAS所提供的數(shù)據(jù)挖掘算法中沒有包含遺傳算法,所以為了實現(xiàn)最優(yōu)參數(shù)搜索,必須在數(shù)據(jù)挖掘模塊中加入遺傳算法。本文將指標(biāo)計算公式的參數(shù)作為染色體基因,一種參數(shù)組合作為一個個體。然后根據(jù)個體基因數(shù)據(jù)生成指標(biāo)值,并對指標(biāo)值進行數(shù)據(jù)挖掘和預(yù)測,對預(yù)測結(jié)果的準(zhǔn)確性進行評分,預(yù)測效果最好的參數(shù)組合將作為最佳選擇提供給用戶。遺傳算法實現(xiàn)可以參考有關(guān)文獻。本文所設(shè)計的主要處理流程如圖2所示。

在圖2流程中使用SSAS對每一種參數(shù)組合計算生成的指標(biāo)數(shù)據(jù)進行數(shù)據(jù)挖掘分析和預(yù)測。SSAS是基于數(shù)據(jù)挖掘模型進行處理的,數(shù)據(jù)挖掘模型是一個數(shù)據(jù)結(jié)構(gòu),包含了數(shù)據(jù)關(guān)系、多維數(shù)據(jù)的分組和預(yù)測分析、數(shù)據(jù)挖掘算法等。用SSAS進行數(shù)據(jù)挖掘過程分為三個步驟:創(chuàng)建挖掘模型、訓(xùn)練挖掘模型和利用挖掘模型生成的規(guī)則進行預(yù)測。

2.1 創(chuàng)建數(shù)據(jù)挖掘模型

開發(fā)人員可以利用Visual Studio 2005內(nèi)置Analysis Services項目模板快速創(chuàng)建數(shù)據(jù)挖掘模型,也可以利用DMX數(shù)據(jù)挖掘查詢語言創(chuàng)建和處理數(shù)據(jù)挖掘模型。下面是一個利用關(guān)聯(lián)規(guī)則算法建立的外匯利潤預(yù)測分析的挖掘模型的例子。選擇交易時間做為主鍵,該字段用來唯一表示某時間段內(nèi)外匯交易價格。

CREATE MINING MODEL DM (

Ftime Date KEY,

KvalueDoublediscrete,

DvalueDoublediscrete,

…….

ProfitLeveldiscrete PREDICT)

USING Microsoft_Association_Rules (Minimum_Probability = 0.3, MINIMUM_SUPPORT = 0.05)

2.2 訓(xùn)練挖掘模型

SSAS將挖掘模型保存在數(shù)據(jù)庫服務(wù)器端,然后訓(xùn)練挖掘模型生成數(shù)據(jù)挖掘規(guī)則。AMO(Analysis Management Object)是微軟提供給開發(fā)人員使用的管理SSAS的主要接口,開發(fā)人員可以使用AMO創(chuàng)建、管理和處理挖掘模型,立方體,分區(qū)等Analysis Services對象。以下是在戶端程序中使用AMO與Analysis Services進行數(shù)據(jù)交互,訓(xùn)練挖掘模型的簡單例子。

Svr=new Server();

Svr.Connect(@”Provider=SQLNCLI.1;Data Source=SSASDM\Store;……”);

Db=svr.Databases.GetByName(“DM”); //獲取數(shù)據(jù)挖掘模型對象

Db.Process(ProcessType.ProcessFull); //調(diào)用訓(xùn)練和處理挖掘模型

Svr.Disconnect();

2.3 預(yù)測

挖掘模型訓(xùn)練完后,SSAS生成挖掘規(guī)則并可以用來進行預(yù)測。本文算法流程中將指標(biāo)數(shù)據(jù)預(yù)留一部分用于預(yù)測,然后使用SSAS提供的SQL擴展語言,實現(xiàn)預(yù)測任務(wù)。以下是一個客端程序的預(yù)測連接例子:

AdomdConnectionConn=new AdomdConnection(……);

AdomdClient.AdomdConnand Comm=Conn.CreateCommand();

AdomdDataReader reader;

mandText=String.Format(@”Select Predict( [profit Level] ) , PredictProbability( [Profit Level] ) From IndexData NATURAL PREDICTON JOIN (Select {0} as [Kvalue],{1} as [Dvalue],… as t”,R1,R2,…);

//構(gòu)建數(shù)據(jù)挖掘預(yù)測語句

Reader=Comm.ExecuteReader();

上述第四行程序語句涉及數(shù)據(jù)挖掘模型和數(shù)據(jù)測試表,使用一個實例集進行預(yù)測,返回預(yù)測結(jié)果數(shù)據(jù)表格。

3 總結(jié)

該文分析了一種金融數(shù)據(jù)分析模塊的設(shè)計方法和實現(xiàn),該模塊可以被重復(fù)開發(fā)和利用。若用戶自定義新的指標(biāo)計算公式,只需要修改數(shù)據(jù)挖掘模型和預(yù)測連接語句即可運行。在實際應(yīng)用中,該系統(tǒng)模塊的原型證明能夠幫助金融分析員提高工作效率。

參考文獻:

[1] Zhao Huitang.Data Mining with SQL server 2005[M].Wiley Publishing,Inc.2007.

[2] 張濤.基于MS Analysis Services多維分析系統(tǒng)的實現(xiàn)[J].哈爾濱理工大學(xué)學(xué)報,2003(6):16-18.

篇5

[關(guān)鍵詞]公安大數(shù)據(jù);SAP HANA;數(shù)據(jù)分析

中圖分類號:TP311.13 文獻標(biāo)識碼:A 文章編號:1009-914X(2015)05-0141-01

1引言

近年來,大數(shù)據(jù)這個概念被越來越多的提及,信息大爆炸的時代已經(jīng)到來,現(xiàn)階段建設(shè)新的能夠匹配公安業(yè)務(wù)場景的大數(shù)據(jù)系統(tǒng)是公安部門的迫切需求。公安工作與大數(shù)據(jù)也已然開始產(chǎn)生密切的聯(lián)系,基于各種技術(shù)的大數(shù)據(jù)平臺也在被建立起來,本文就基于“SAP HANA”技術(shù)的公安大數(shù)據(jù)分析平臺做一個展望。

2公安工作對大數(shù)據(jù)平臺的需求

公安部門掌握的數(shù)據(jù)越來越多,對于這些不同來源、不同類型、不同格式的數(shù)據(jù),現(xiàn)有的公安警務(wù)數(shù)據(jù)平臺無論是規(guī)模還是架構(gòu)都很難適應(yīng)在海量數(shù)據(jù)場景下的數(shù)據(jù)管理和分析,直接影響了公安形勢預(yù)判和重大決策,因此,在現(xiàn)階段建設(shè)新的能夠匹配公安業(yè)務(wù)場景的大數(shù)據(jù)系統(tǒng)是公安部門的迫切需求。新建設(shè)的公安大數(shù)據(jù)系統(tǒng),需要做到:PB級數(shù)據(jù)存儲管理,多種數(shù)據(jù)類型與協(xié)議支持,高質(zhì)量的數(shù)據(jù)整合,高效的數(shù)據(jù)分析能力,可管理和開放性,安全可靠,自主可控。

3現(xiàn)有大數(shù)據(jù)平臺的缺陷

對于數(shù)據(jù)可以劃分為兩類:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)沒有統(tǒng)一的大小和格式,給分析和挖掘帶來了很大的挑戰(zhàn)。而現(xiàn)有的數(shù)據(jù)平臺對非結(jié)構(gòu)化的數(shù)據(jù)處理起來就非常的吃力。面對冗雜無序的龐大數(shù)據(jù),簡單的人海戰(zhàn)術(shù)已經(jīng)跟不上社會發(fā)展的步伐,因此更高效、更便捷的SAP HANA內(nèi)存數(shù)據(jù)庫運算技術(shù)應(yīng)運而生,它的產(chǎn)生讓數(shù)據(jù)存儲、運算速度得到了極大的提高,讓TB乃至PB級數(shù)據(jù)分析、處理和存儲變得更加快捷穩(wěn)定,也讓大數(shù)據(jù)分析平臺的搭建有了新的選擇途徑。

4 SAP HANA技術(shù)

HANA(High-Performance Analytic Appliance)是德國SAP軟件公司開發(fā)的是一個軟硬件結(jié)合體。它能夠提供高性能的數(shù)據(jù)查詢功能,可以直接對大量實時業(yè)務(wù)數(shù)據(jù)進行查詢和分析,不需要對業(yè)務(wù)數(shù)據(jù)進行建模、聚合。

4.1 SAP HANA技術(shù)特點

4.1.1軟件方面

相對于Oracle等傳統(tǒng)關(guān)系型數(shù)據(jù)庫,SAP HANA內(nèi)存數(shù)據(jù)庫不僅在維護數(shù)據(jù)的完整性、一致性方面做到了最好,而且在傳統(tǒng)關(guān)系型數(shù)據(jù)庫并不擅長的領(lǐng)域――難以顧及數(shù)據(jù)處理實效要求方面實現(xiàn)了突破。追本溯源,之所以SAP HANA實現(xiàn)了對Oracle等傳統(tǒng)關(guān)系型數(shù)據(jù)庫的超越,是因為其采用了改進的數(shù)據(jù)壓縮、行列式數(shù)據(jù)存儲和內(nèi)存計算技術(shù)。將海量數(shù)據(jù)經(jīng)過高效壓縮存儲至HANA的大內(nèi)存數(shù)據(jù)厙,提高查詢和分析效率。

數(shù)據(jù)壓縮:SAP HANA采用數(shù)據(jù)字典的方法對數(shù)據(jù)進行壓縮,用整數(shù)來代表相應(yīng)的文本。對于數(shù)據(jù)格式相對單一的結(jié)構(gòu)化數(shù)據(jù)源,這種壓縮方式非常有效,數(shù)據(jù)讀寫速度也因此得到提升。

行列式存儲:有人曾形象的比喻,HANA可以“識別”用戶在插入數(shù)據(jù)和輸出數(shù)據(jù)時的真正意圖。實際上這是因為HANA采用了行列式存儲方式,即增量更新(插入數(shù)據(jù))時,HANA將它視為行式數(shù)據(jù)庫;而輸出數(shù)據(jù)時,HANA又充分利用其列式結(jié)構(gòu)適合數(shù)據(jù)壓縮的優(yōu)點穩(wěn)定快速的輸出數(shù)據(jù)。而傳統(tǒng)關(guān)系型數(shù)據(jù)庫則需要犧牲其中一種方式來保證速度。

內(nèi)存數(shù)據(jù)庫計算技術(shù):根據(jù)計算機組成原理我們知道數(shù)據(jù)是從磁盤->通過數(shù)據(jù)總線和控制器(RAID,I/O hub等)―->內(nèi)存―->CPU Cache-->CPU進行數(shù)據(jù)處理(CPU寄存器)。HANA內(nèi)存數(shù)據(jù)庫,就是將數(shù)據(jù)放在內(nèi)存中直接操作,跨過了數(shù)據(jù)總線和控制器,直接與CPU cache進行數(shù)據(jù)傳輸,數(shù)據(jù)讀寫速度比磁盤讀寫速度高出幾個數(shù)量級,極大地提高了計算速度,縮短了時間。內(nèi)存的訪問速度比磁盤快1,000,000倍。傳統(tǒng)磁盤讀取是5毫秒,內(nèi)存讀取是5納秒,比SSD和閃存快1000倍。雖然寄存器和Cache的讀取數(shù)據(jù)的速度比內(nèi)存快,但在實際的數(shù)據(jù)處理中卻應(yīng)用較少。

在傳統(tǒng)的數(shù)據(jù)庫中,由于內(nèi)存存儲的數(shù)據(jù)有易失性,系統(tǒng)斷電或重啟后內(nèi)存中的數(shù)據(jù)就會丟失,對此SAP HAHA采取后臺異步進程savepoint(Data persistence)定時把內(nèi)存數(shù)據(jù)存儲到磁盤中,大大降低了因故障導(dǎo)致數(shù)據(jù)存儲丟失的問題。

4.1.2硬件方面

SAP不僅在軟件領(lǐng)域獨樹一幟,在硬件研發(fā)方面也積極創(chuàng)新,和多個國際硬件廠商開展了合作,開發(fā)了多款支持HANA的高性能服務(wù)器,包括DellR910、Fujitsu RX600 S6、HP DL980 G7、IBM x3850等服務(wù)器。

4.2 SAP HANA技術(shù)應(yīng)用

正是基于對SAP HANA高性能的認同,SAP內(nèi)存計算技術(shù)正在全球內(nèi)廣泛應(yīng)用,不斷的轉(zhuǎn)變?nèi)藗兊乃伎?、重新?guī)劃著人們的生活和工作方式。

以亞太區(qū)第一家上線HANA技術(shù)的某快速消費品企業(yè)為例,該企業(yè)年銷售額近百億元,業(yè)務(wù)涉及生產(chǎn)、銷售、計劃、調(diào)度、物流、市場營銷等多個方面,這對企業(yè)的綜合管理和整體運營能力提出了很高的要求。同時,作為一個快速消費品行業(yè)企業(yè),準(zhǔn)確實時的數(shù)據(jù)對于企業(yè)來說非常重要,企業(yè)高管如果要對瞬息萬變的市場行情做出準(zhǔn)確的判斷,就必須依據(jù)準(zhǔn)確實時的數(shù)據(jù)進行科學(xué)決策。

該企業(yè)在應(yīng)用了HANA技術(shù)后,確實提高了數(shù)據(jù)查詢、處理的能力。數(shù)據(jù)展現(xiàn)能力快速提高。據(jù)測試,商業(yè)智能報表快25~30倍,邏輯計算能力速度提高了約150倍,而且,越是復(fù)雜的運算,HANA的邏輯運算能力就越突出,數(shù)據(jù)實時、同步真正實現(xiàn)。

5公安工作應(yīng)用hana技術(shù)的可行性

公安部門的各類信息來源(公安管控信息、社會管理信息和社會公開信息等)中,人口信息、水電煤氣信息、通訊信息、網(wǎng)絡(luò)賬號、圖像、聲音以及視頻等信息絕大部分是非結(jié)構(gòu)化數(shù)據(jù)。在這個“非結(jié)構(gòu)化數(shù)據(jù)時代”,主要用于管理結(jié)構(gòu)化數(shù)據(jù)的傳統(tǒng)關(guān)系型數(shù)據(jù)庫受限明顯,尤其是運算速度過慢被人所詬病。而采用擅長大數(shù)據(jù)運算的SAP HANA技術(shù)無疑是明智的選擇。

篇6

 

0 引言

 

新世紀(jì)以來,隨著互聯(lián)網(wǎng)及信息技術(shù)的飛速發(fā)展和應(yīng)用,使我國的信息化得到前所未有的爆炸式增長,各個行業(yè)相繼完成信息化改造,極大地提升了人們的生活水平與生產(chǎn)效率。同時,也使各行業(yè)進入到信息化發(fā)展的軌道上,進一步提升了企業(yè)生產(chǎn)效益。正是由于經(jīng)濟的飛速發(fā)展,各行業(yè)發(fā)展都已積累了海量的數(shù)據(jù)信息。但是傳統(tǒng)的數(shù)據(jù)分析方法和工具僅僅能實現(xiàn)簡單的錄入、查詢、更改、統(tǒng)計、輸出等非常低等的功能,無法及時快速地發(fā)現(xiàn)數(shù)據(jù)跟數(shù)據(jù)之間存在的關(guān)系與規(guī)則,無法根據(jù)已有的海量數(shù)據(jù)有效預(yù)測未來的發(fā)展趨勢,不能及時為企業(yè)決策提供有力的數(shù)據(jù)支持。

 

數(shù)據(jù)挖掘技術(shù)的出現(xiàn)技術(shù)填補了大量企業(yè)的這一需求,數(shù)據(jù)挖掘技術(shù)可以高效地挖掘數(shù)據(jù)背后隱藏的關(guān)系跟規(guī)則,非常方便地把這些海量信息予以統(tǒng)計、分析及利用成為當(dāng)前各行業(yè)需要解決的首個問題。為企業(yè)決策提供及時準(zhǔn)確的統(tǒng)計學(xué)數(shù)據(jù)支持,為企業(yè)發(fā)展壯大提供很好的數(shù)據(jù)分析工具。而海量數(shù)據(jù)挖掘技術(shù)的出現(xiàn),保證了海量數(shù)據(jù)信息的合理利用,同時加快了我國信息化技術(shù)的發(fā)展。

 

1 數(shù)據(jù)挖掘技術(shù)定義

 

數(shù)據(jù)挖掘技術(shù)起源于情報分析,其過程是一個從大量的、不完整的、有噪聲的、模糊的隨機數(shù)據(jù)被從隱含在大量數(shù)據(jù)中提取的過程,數(shù)據(jù)挖掘的情報資料是人們事先不知道的,但可能是有用的信息和知識。在大多數(shù)情況下,人們利用計算機等信息工具的時候只知道,存儲數(shù)據(jù),數(shù)據(jù)被存儲的越來越多,但不知道這些海量數(shù)據(jù)中隱藏著很多重要的規(guī)律、規(guī)則等信息,數(shù)據(jù)挖掘技術(shù)就是一種可以從大量的數(shù)據(jù)中挖掘出有用重要信息的一種數(shù)據(jù)分析工具。如圖1所示。

 

2 數(shù)據(jù)挖掘常用的方法

 

數(shù)據(jù)統(tǒng)計分析中的數(shù)據(jù)挖掘技術(shù)主要有以下方法:分類法、回歸分析法、聚類法、關(guān)聯(lián)規(guī)則法、特征法、變化和偏差分析法、Web頁挖掘等相關(guān)方法,這些方法從不同的角度對數(shù)據(jù)進行挖掘分析,得出需要的信息數(shù)據(jù)。

 

3 統(tǒng)計分析和數(shù)據(jù)挖掘的主要區(qū)別

 

從實踐應(yīng)用的角度來看,這個問題并沒有很大的意義,正如“不管白貓還是黑貓,抓住老鼠才是好貓”一樣,在實際的應(yīng)用中,數(shù)據(jù)分析師分析問題時,首先要考慮的是思路,其次才會對與思路匹配的分析挖掘技術(shù)驚醒篩選,而不是優(yōu)先考慮到底是用統(tǒng)計分析方法還是利用數(shù)據(jù)挖掘技術(shù)來解決這個問題。

 

統(tǒng)計分析和數(shù)據(jù)挖掘的主要的區(qū)別在以下幾個方面:

 

統(tǒng)計分析在預(yù)測中應(yīng)用常表現(xiàn)為一個或一組函數(shù)關(guān)系式,而數(shù)據(jù)挖掘在預(yù)測應(yīng)用中的重點在于預(yù)測結(jié)果,很多時候并不會從結(jié)果中產(chǎn)生明確的函數(shù)關(guān)系式,有時候甚至不知道到底哪些變量在起作用,又是如何起作用的。最經(jīng)典的例子就是“神經(jīng)網(wǎng)絡(luò)”挖掘技術(shù),它里面的隱藏層就是一個黑箱,沒有人能在所有的情況下讀懂里面的非線性函數(shù)是如何對自變量進行組合的,在實踐應(yīng)用中,這種情況常會讓習(xí)慣統(tǒng)計分析公式的分析師感到困惑,這也確實影響了模型在實踐應(yīng)用中的課理解性和可接受度。

 

統(tǒng)計分析的基礎(chǔ)之一就是概率論,在對數(shù)據(jù)進行統(tǒng)計時,分析人員常常需要對數(shù)據(jù)分布和變量之間的關(guān)系進行假設(shè),確定用什么概率函數(shù)來描述變量之間的關(guān)系,以及如何檢驗參數(shù)的統(tǒng)計顯著性;但是數(shù)據(jù)挖掘的應(yīng)用中,分析人員不需要對數(shù)據(jù)分布做任何假設(shè),數(shù)據(jù)挖掘中的算法會自動尋找變量間的關(guān)系,因此,相對于海量、雜亂的數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)有明顯的應(yīng)用優(yōu)勢。

 

在實踐應(yīng)用中,統(tǒng)計分析常常需要分析人員先做假設(shè)或判斷,然后利用數(shù)據(jù)分析技術(shù)來驗證該假設(shè)的正誤。但是,在數(shù)據(jù)挖掘中,分析人員并不需要對數(shù)據(jù)的內(nèi)在關(guān)系做任何假設(shè),而是會讓挖掘工具中的算法自動去尋找數(shù)據(jù)中隱藏的關(guān)系或規(guī)律。

 

兩者的思維方式并不相同,這給數(shù)據(jù)挖掘帶來了更靈活、更寬廣的思路和舞臺。

 

4 數(shù)據(jù)挖掘的一般流程

 

海量數(shù)據(jù)挖掘技術(shù)指的是把海量數(shù)據(jù)信息有針對性地進行提煉、分類和整理,從而將隱含在最深層次的信息挖掘出,為各行業(yè)發(fā)展提供可靠的數(shù)據(jù)信息支持。換言之,海量數(shù)據(jù)挖掘技術(shù)利用當(dāng)前最先進的數(shù)據(jù)分析工具從海量數(shù)據(jù)信息內(nèi)部挖掘數(shù)據(jù)信息以及模型間的關(guān)系的一種技術(shù)統(tǒng)稱,更加深入的認識與了解數(shù)據(jù)模型,并對各自模型件關(guān)系的對應(yīng)關(guān)系予以深入分析,從而更好地指導(dǎo)各行業(yè)的生產(chǎn)與發(fā)展,同時為其提供更多決策性的技術(shù)支持。

 

事實上,數(shù)據(jù)挖掘過程不能夠自動生成,必須通過人工建模來實現(xiàn),因此,人需要完成大部分的工作。其中,主要包含數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)選擇、建立挖掘模型及評估模型等。

 

首先,通常海量數(shù)據(jù)挖掘技術(shù)應(yīng)用在各行業(yè)的生產(chǎn)和發(fā)展決策方面,也就是說數(shù)據(jù)挖掘工作將面臨著巨大的數(shù)據(jù)信息,并且此類數(shù)據(jù)信息多數(shù)為模糊的、無規(guī)律的;其次,建立高效、易理解的數(shù)據(jù)模型有助于實現(xiàn)海量數(shù)據(jù)挖掘;再次,數(shù)據(jù)挖掘模型的構(gòu)建主要目的是幫助用戶解決實際存在的問題,在經(jīng)過對海量數(shù)據(jù)信息進行挖掘之后,從中找出利用價值高的信息,再對此類信息予以統(tǒng)計、整理和分析,最終用于指導(dǎo)各行業(yè)的生產(chǎn)與發(fā)展;最后,開展數(shù)據(jù)挖掘工作主要是為從海量數(shù)據(jù)信息里找出有價值的數(shù)據(jù)信息,這并不是單純的數(shù)學(xué)性研究,其根本目的是從各行業(yè)的海量數(shù)據(jù)信息中找出有價值的數(shù)據(jù)信息,它具有相應(yīng)的約束條件,且面向的是針對性較強的數(shù)據(jù)挖掘模型。

 

數(shù)據(jù)挖掘的一般流程如圖2所示。

 

5 數(shù)據(jù)挖掘技術(shù)實現(xiàn)

 

現(xiàn)如今,盡管海量數(shù)據(jù)挖掘?qū)儆谝环N新技術(shù),但由于該技術(shù)發(fā)展速度較快,因此,已被廣泛應(yīng)用到計算機發(fā)展領(lǐng)域當(dāng)中。近年來,由于數(shù)據(jù)挖掘理論的逐步趨于完善化,并且在實踐中取得了較好成效。其中,最常用的海量數(shù)據(jù)挖掘技術(shù)主要包含以下幾種:決策樹、神經(jīng)網(wǎng)絡(luò)以及統(tǒng)計學(xué)模糊。

 

①決策樹算法通常應(yīng)用到分析分類問題當(dāng)中,同時它也是分類與預(yù)測的一主要技術(shù)。其中,類別屬于因變量,而決策樹可從眾多預(yù)測變量當(dāng)中,再相關(guān)理論的指導(dǎo)下,預(yù)測變量的發(fā)展趨勢及變化關(guān)系,同時可對其進行雙向分析,即包含正向分析和反推分析,根據(jù)最終的結(jié)果去尋找問題的原因。

 

②神經(jīng)網(wǎng)絡(luò)的建立。事實上,人工神經(jīng)網(wǎng)絡(luò)法指的是模擬人腦神經(jīng)元結(jié)構(gòu)的一種算法。其中,改善神經(jīng)網(wǎng)絡(luò)算法的關(guān)鍵在于知識的表達與獲取。神經(jīng)網(wǎng)絡(luò)可實現(xiàn)并行處理,這是因為神經(jīng)網(wǎng)絡(luò)應(yīng)用的是自適應(yīng)函數(shù)估計器,因此,它的學(xué)習(xí)能力是極強的,在短時間內(nèi)能學(xué)會新知識,同時它的糾錯能力與適應(yīng)性也是非??捎^的。

 

③統(tǒng)計學(xué)模糊學(xué)習(xí)。該方法屬于一種預(yù)測法,常被應(yīng)用到談及機器學(xué)習(xí)規(guī)律當(dāng)中,而且只可應(yīng)用到小樣本情形中。另外,該方法是對觀測數(shù)據(jù)進行深入的研究,通過對原理的分析,找出其中不予通用的規(guī)律。再結(jié)合已找出的規(guī)律進行更深層次的分析與探究,再結(jié)合實踐中存在的現(xiàn)象予以預(yù)測,這樣可提前預(yù)測出數(shù)據(jù)的發(fā)展趨勢。

 

6 數(shù)據(jù)挖掘的應(yīng)用

 

目前數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域主要包括以下這些方面:

 

金融、醫(yī)療保健、市場業(yè)、零售業(yè)、制造業(yè)、司法、工程和科學(xué)、保險業(yè)、網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)、企業(yè)競爭情報系統(tǒng)、全文檢索、企業(yè)搜索、數(shù)據(jù)分析、數(shù)據(jù)庫,可以用在各個需要數(shù)據(jù)分析的行業(yè)。

 

6.1 生物科技

 

在生物科技領(lǐng)域,如人的大腦與機器這一層面上,利用數(shù)據(jù)挖掘技術(shù)可加速發(fā)展生化義肢這一產(chǎn)品,很多這方面的專家學(xué)者普遍認為利用數(shù)據(jù)挖掘技術(shù)快速發(fā)展生化義肢這方面是大有潛力可供挖掘的。

 

6.2 信息科技

 

數(shù)位權(quán)利管理愈來愈受重視,以便保護知識財產(chǎn),由全錄公司Palo Alto研究中心創(chuàng)出的Content Guard公司,利用加密技術(shù)保護知識財產(chǎn)。

 

6.3 商務(wù)智能

 

數(shù)據(jù)挖掘技術(shù)可以用來支持廣泛的商務(wù)智能應(yīng)用,如顧客分析、定向營銷、工作流管理、商店分布和欺詐檢測等。數(shù)據(jù)挖掘還能幫助零售商回答一些重要的商務(wù)問題,如“誰是最有價值的顧客?”“什么產(chǎn)品可以交叉銷售或提升銷售?”“公司明年的收入前景如何?”這些問題催生了一種新的數(shù)據(jù)分析技術(shù)——關(guān)聯(lián)分析。如圖3所示。

 

6.4 資料發(fā)掘與生物測定學(xué)

 

數(shù)據(jù)挖掘是利用數(shù)學(xué)演算法,在龐大的資料庫中尋找方式,例如目前應(yīng)用在掌紋、臉孔等圖像辨識,或者是語言辨識處理等方面。

 

6.5 塑料芯片

 

塑料芯片是最新的前沿科學(xué),塑料以其價格便宜、容易制造等特點被很多科研機構(gòu)以及大學(xué)所青睞。很多大學(xué)科學(xué)家及機構(gòu)在利用數(shù)據(jù)挖掘技術(shù)致力于研究塑料代替硅半導(dǎo)體,如IBM公司、朗訊科技、麻省理工大學(xué)、劍橋大學(xué)、Penn State大學(xué)都在大量研究與開發(fā)塑料或有機物質(zhì)芯片。

 

6.6 微光學(xué)技術(shù)

 

專家利用可反射光線的水晶、玻璃等物質(zhì),讓光纖傳輸資料的速度,不會因為通過路由器、交換器時而降低速度。

 

6.7 司法

 

在司法領(lǐng)域,數(shù)據(jù)挖掘技術(shù)分析的對象一般分為兩大類:一類是基于監(jiān)控對象的系統(tǒng),它能夠幫助分析專家跟蹤某個犯罪嫌疑人;另一類是基于行為模式的系統(tǒng),它可以在多種活動方式中搜尋可疑的可能涉及犯罪的行為,或者可能是犯罪分子才會產(chǎn)生的行為。基于監(jiān)控對象的數(shù)據(jù)挖掘技術(shù)又稱作關(guān)聯(lián)分析法,是司法機構(gòu)重點開發(fā)的技術(shù)。這種方法能利用相關(guān)數(shù)據(jù),在表面上沒有關(guān)系的人或事件之間建立關(guān)聯(lián)。比如,如果某人是犯罪嫌疑人,那么就可以使用關(guān)聯(lián)軟件發(fā)現(xiàn)嫌疑人可能正在影響的其他人,從相關(guān)人那里獲取破案線索。

 

6.8 微應(yīng)用流體學(xué)

 

科學(xué)家正試圖利用物理原則做實驗,只利用極微量的水,加快原本需要費時費金錢的實驗。加州理工學(xué)院的應(yīng)用物理學(xué)家Stephen Quake,以微應(yīng)用流體學(xué)發(fā)展了一套DNA分析裝置,比傳統(tǒng)的分析裝置快。Technology Review的編輯指出,微應(yīng)用流體學(xué)將為生物科技提供巨大的幫助,就像當(dāng)初電晶體提高了電子產(chǎn)品。

 

7 案例分析

 

基于統(tǒng)計分析的數(shù)據(jù)挖掘在工程造價管理中的實例應(yīng)用分析,在工程造價管理系統(tǒng)中,可通過選擇工程單方造價指標(biāo)、造價核減率、竣工結(jié)算價、工程結(jié)構(gòu)形式、招標(biāo)方式、竣工結(jié)算審核單位、竣工結(jié)算日期等因素等進行數(shù)據(jù)篩選,通過后臺數(shù)據(jù)庫統(tǒng)計分析后選出符合目標(biāo)值的數(shù)據(jù)類型。

 

比如,選取出2010年1-7月某市市區(qū)竣工結(jié)算審定價超過100萬元的工程計三十二項。其中,六層以下磚混結(jié)構(gòu)住宅樓七項,六層以下框架混凝土結(jié)構(gòu)住宅樓六項,十八層框剪住宅樓兩項,框架綜合樓五項,框架廠房三項,內(nèi)裝飾工程五項,外裝飾工程兩項,普通瀝青路兩項。

 

經(jīng)過對建設(shè)成本的測算可以清楚,六層及以下的磚混結(jié)構(gòu)住宅樓平均單方造價為801.65元/m2,六層以下框架住宅樓平均單方造價為941.39元/m2,十八層框剪住宅樓平均單方造價為1080.37元/m2,框架綜合樓平均單方造價為1326.36元/m2,框架廠房平均單方造價為852.70元/m2,內(nèi)裝平均單方造價為24.58元/m2,外裝平均單方造價為824.94元/m2,普通瀝青路平均單方造價為354.55元/m2。

 

此市市區(qū)2010年1-7月竣工工程單方造價指標(biāo)如上所示的典型工程造價指標(biāo)信息,是此市定期的,具有代表性、以審定的工程結(jié)算為主的住宅(含經(jīng)濟適用房或廉租房)、公共建筑、市政道路等工程造價實例信息,它為社會和造價管理機構(gòu)提供可參考的、較詳細的實際工程造價經(jīng)濟指標(biāo)和消耗量指標(biāo)信息。

 

總的來說,數(shù)據(jù)分析處理,可以簡單快捷地從繁重冗雜的工程造價數(shù)據(jù)中找出共性或者異性的數(shù)據(jù)。有效加強了工程造價的全過程動態(tài)管理,強化了工程造價的約束機制,為維護有關(guān)各方的經(jīng)濟利益,規(guī)范價格行為,促進微觀效益和宏觀效益的統(tǒng)一提供廣闊的平臺。

 

8 結(jié)束語

 

數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用徹底解決了海量數(shù)據(jù)快速處理問題,然而人們對數(shù)據(jù)挖掘技術(shù)的需求水平也越來越高。它可以預(yù)測未來的發(fā)展趨勢,所以今后研究焦點可能會集中到處理非數(shù)字?jǐn)?shù)據(jù);尋求數(shù)據(jù)挖掘過程中的可視化方法,便于在知識發(fā)現(xiàn)過程中的人機交互,使計算機真正實現(xiàn)智能化。這可能需要一段時間,需要計算機工作者的不斷的研究探索,不久的將來我們將看到數(shù)據(jù)挖掘據(jù)技術(shù)很大的進展。

篇7

文章編號:1004-4194(2015)07-122-02

大數(shù)據(jù)是以云計算為基礎(chǔ),通過信息存儲、分享和挖掘,將大量、高速、多變的終端數(shù)據(jù)存儲下來并分析計算,尋求解決問題的有效方法。隨著軍隊信息化建設(shè)的不斷推進,未來軍事經(jīng)濟活動都將以數(shù)據(jù)信息流的形式展現(xiàn)和保存,產(chǎn)生的數(shù)據(jù)量增長迅速,數(shù)據(jù)種類和格式日漸豐富。面對一個個數(shù)量龐大、種類繁雜的數(shù)據(jù)信息源,審計機關(guān)不僅要具備對海量數(shù)據(jù)的采集和存儲的能力,更重要的是能夠迅速分析和挖掘數(shù)據(jù),從中找出審計線索、發(fā)現(xiàn)問題、尋求對策。

一、大數(shù)據(jù)的定義與特征

根據(jù)維基百科的定義,大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。對于大數(shù)據(jù),美國著名的顧能公司給出了這樣的定義:是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。隨著大數(shù)據(jù)研究的深入,大數(shù)據(jù)概念的內(nèi)涵和外延不斷地產(chǎn)生變化,業(yè)界對其定義尚未完全統(tǒng)一。目前主流的定義基本是從大數(shù)據(jù)的特征出發(fā),試圖通過闡述和歸納這些特征來給出大數(shù)據(jù)的定義,其中比較有代表性的是4V。大數(shù)據(jù)的4個“V”有四個層面:一是數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別。二是數(shù)據(jù)類型繁多。包括網(wǎng)絡(luò)日志、視頻、圖片、地理位置等信息。三是處理速度快。1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。四是只要合理利用數(shù)據(jù)并對其進行正確、準(zhǔn)確的分析,將會帶來很高的價值回報。業(yè)界將其歸納為4個“V”――Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價值密度低)。大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點,強調(diào)將數(shù)據(jù)結(jié)合到業(yè)務(wù)流程和決策過程中,部分類型的數(shù)據(jù)必須實時分析才能對業(yè)務(wù)產(chǎn)生價值。

二、大數(shù)據(jù)背景給軍隊審計數(shù)據(jù)分析帶來的機遇和挑戰(zhàn)

(一)大數(shù)據(jù)背景給軍隊審計數(shù)據(jù)分析帶來的機遇

1.軍隊審計數(shù)據(jù)分析的認同感大為增強。軍隊審計部門作為綜合性的經(jīng)濟監(jiān)督部門,一直秉承數(shù)據(jù)說話的傳統(tǒng)。審計報告中無論是綜合評價,還是揭示問題,無一不是以數(shù)據(jù)為支撐的。在大數(shù)據(jù)背景下,海量數(shù)據(jù)離散地存儲于不同信息系統(tǒng)中??沙浞掷脭?shù)據(jù)倉庫、聯(lián)機分析、數(shù)據(jù)挖掘和數(shù)據(jù)可視化等技術(shù),對這些數(shù)據(jù)進行關(guān)聯(lián)并深度挖掘分析,科學(xué)評估經(jīng)費的使用情況和法規(guī)的實施效果,從而得出客觀的審計結(jié)論。所有這一切都將得到各級黨委和被審計單位的高度認同,從而進一步提升軍隊審計自身的地位。

2.軍隊審計數(shù)據(jù)分析所需的基礎(chǔ)數(shù)據(jù)的獲取將變得更為便利。在破除了軍隊內(nèi)部協(xié)同思想理念上的障礙后,隨著大數(shù)據(jù)技術(shù)發(fā)展,跨越系統(tǒng)、跨越平臺、跨越數(shù)據(jù)流結(jié)構(gòu)的技術(shù)將使軍隊內(nèi)部縱向、橫向部門得以流暢協(xié)同。軍隊審計部門不再需要“點對點”地與被審計單位進行聯(lián)網(wǎng),在內(nèi)部局域網(wǎng)設(shè)定的許可權(quán)限內(nèi),可以直接查詢和利用相關(guān)數(shù)據(jù)信息,極大地節(jié)約了審計成本;同時由于利用大數(shù)據(jù)技術(shù),數(shù)據(jù)處理及分析響應(yīng)時間將大幅減少,審計工作的效率將明顯提高,可以同時對多個類別、多種領(lǐng)域的數(shù)據(jù)進行分析、處理。

3.軍隊審計數(shù)據(jù)分析將有助于提高黨委決策的科學(xué)性和準(zhǔn)確性,推動預(yù)測預(yù)警和應(yīng)急響應(yīng)機制建設(shè),更加有效地規(guī)范軍事經(jīng)濟活動。審計人員可以通過對歷年海量數(shù)據(jù)的統(tǒng)計分析,挖掘出軍事經(jīng)濟活動的特點規(guī)律,對各類違規(guī)違紀(jì)行為進行總結(jié)歸納,為黨委建章立制提供參考依據(jù);同時還能科學(xué)地評估管理規(guī)章的執(zhí)行效果,從而幫助各級黨委不斷發(fā)現(xiàn)問題、整改落實。隨著審計分析的進一步深化,審計分析將超越傳統(tǒng)的數(shù)據(jù)分析方法,不但是對純數(shù)據(jù)可以進行分析挖掘,對財務(wù)賬表、報告等都可以進行深度挖掘、人工智能。

(二)大數(shù)據(jù)背景給軍隊審計數(shù)據(jù)分析帶來的挑戰(zhàn)

大數(shù)據(jù)在給軍隊審計信息化帶來機遇的同時,也帶來前所未有的挑戰(zhàn):一是實現(xiàn)資源統(tǒng)一規(guī)劃和使用,必須以數(shù)據(jù)編碼和信息標(biāo)準(zhǔn)統(tǒng)一、相互之間兼容互聯(lián)為前提。由于目前缺乏制度依據(jù),部門間橫向協(xié)同難,原有的“信息孤島”將給審計機關(guān)獲取審計數(shù)據(jù)以及進行持續(xù)化審計造成困難。二是面對數(shù)量龐大、種類繁雜的數(shù)據(jù)信息源,審計機關(guān)不僅要具備對海量數(shù)據(jù)的采集和存儲的能力,更重要的是能夠迅速分析和挖掘數(shù)據(jù),從傳統(tǒng)的“經(jīng)驗依賴”轉(zhuǎn)化為“數(shù)據(jù)依賴”,審計人員的數(shù)據(jù)駕馭能力將受到考驗。三是審計業(yè)務(wù)流程大多以數(shù)據(jù)信息形式展現(xiàn),資金流向更多體現(xiàn)為數(shù)據(jù)信息流的交換,使得違規(guī)違紀(jì)行為更加隱蔽和多樣,微小的數(shù)據(jù)變動就可能造成經(jīng)濟損失。以往僅限于重點人員和財務(wù)的審計已經(jīng)不能滿足需要,抽樣分析以及單一的財務(wù)賬目分析也難以發(fā)現(xiàn)微小數(shù)據(jù)異常,這就要求審計機關(guān)對審計對象進行全面覆蓋。四是審計機關(guān)作為軍事經(jīng)濟運行安全的免疫系統(tǒng),不僅要對已存在的問題進行查處和修補,還要對潛在的風(fēng)險進行及時的揭示和抵御,更要通過大數(shù)據(jù)這個金礦,從更高層面、更全范圍、更廣視角為上級黨委提供系統(tǒng)性、綜合性、前瞻性的審計建議。

三、大數(shù)據(jù)背景下軍隊審計數(shù)據(jù)分析的策略

(一)明確工作目標(biāo)導(dǎo)向,實施數(shù)據(jù)基礎(chǔ)式審計

傳統(tǒng)的以審計組劃分的分散式審計模式已不能適應(yīng)大數(shù)據(jù)背景下審計數(shù)據(jù)分析工作要求。首先,當(dāng)前軍隊審計工作要建立健全制度、整合審計資源,結(jié)合審計人員的專業(yè)理論素養(yǎng)、實踐工作經(jīng)驗、數(shù)據(jù)處理能力等因素,著手組建數(shù)據(jù)集中分析模式團隊。其次,明確審計工作目標(biāo)導(dǎo)向,按照“總體全面分析、重點業(yè)務(wù)分析、重點事項分析”逐層遞進的思路,以系統(tǒng)全面的數(shù)據(jù)信息源為基礎(chǔ),堅持“面向業(yè)務(wù)需求、指導(dǎo)審計實踐、推動數(shù)據(jù)分析”的原則開展審計數(shù)據(jù)分析工作。最后,要理清軍隊審計數(shù)據(jù)分析的工作思路,運用信息系統(tǒng)實施數(shù)據(jù)基礎(chǔ)式審計方法,全面分析被審計單位在經(jīng)濟活動中存在的問題與不足,為軍隊審計工作的順利開展提供數(shù)據(jù)支撐和技術(shù)保證。

(二)研判后臺數(shù)據(jù)結(jié)構(gòu),掌握重點數(shù)據(jù)資源

在大數(shù)據(jù)時代,軍事經(jīng)濟數(shù)據(jù)將呈現(xiàn)指數(shù)增長,挖掘重點及敏感數(shù)據(jù)審計的難度日益加大。做好審計數(shù)據(jù)的掘取、存儲、處理與應(yīng)用,對提高審計效率、實現(xiàn)分析結(jié)果的精準(zhǔn)化具有重要作用。通過檢查被審計單位內(nèi)部控制制度,審查單位內(nèi)部對不同業(yè)務(wù)數(shù)據(jù)的使用管理是否到位,數(shù)據(jù)庫管理和安全操作制度是否完善,重點領(lǐng)域數(shù)據(jù)庫常態(tài)監(jiān)管措施是否嚴(yán)格,移動設(shè)備安全使用規(guī)程是否執(zhí)行;依據(jù)數(shù)據(jù)庫設(shè)計文檔和數(shù)據(jù)注釋等媒介,研究論證后臺數(shù)據(jù)結(jié)構(gòu),確定重點、敏感信息數(shù)據(jù)庫范圍;采取穿行測試法、重新執(zhí)行法、代碼審查法、文檔審查法等技術(shù)手段深入挖掘,切實掌握重點事項、信息、賬表和報告間的勾稽關(guān)系。

(三)運用挖掘型分析技術(shù),開展數(shù)據(jù)深度分析

目前軍隊審計中應(yīng)用較多的是查詢型分析和驗證型分析,無法滿足深刻揭示軍事經(jīng)濟活動內(nèi)在規(guī)律的現(xiàn)實需要,必須要引入挖掘型分析技術(shù)。挖掘型分析是利用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工具進行的審計分析,主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則等方法。運用挖掘型數(shù)據(jù)分析技術(shù),首先要做好審計數(shù)據(jù)的分類、存儲、快速調(diào)用等工作,整合分析數(shù)據(jù)資源,搭建云數(shù)據(jù)存儲平臺,完善數(shù)據(jù)整理和研判機制,實現(xiàn)重點數(shù)據(jù)庫間的兼容互聯(lián),共享審計云平臺服務(wù)器運算能力資源。其次,要研發(fā)數(shù)據(jù)審計方法和分析工具,運用移動辦公、云計算等技術(shù)對海量數(shù)據(jù)進行遠程分析,深度分析審計疑點及問題線索,進而實現(xiàn)數(shù)據(jù)分析結(jié)果的精確化。

篇8

關(guān)鍵詞:ATM;IP;數(shù)據(jù)分析;交換技術(shù)

中圖分類號:TN915 文獻標(biāo)識碼:A 文章編號:1674-7712 (2013) 02-0015-01

數(shù)據(jù)通信是以“數(shù)據(jù)”業(yè)務(wù)為主的一種通信系統(tǒng),數(shù)據(jù)是預(yù)先約定好的具有含義的數(shù)字以及字母和符號等。計算機的發(fā)展,數(shù)據(jù)通信應(yīng)運而生,實現(xiàn)了計算機與計算機之間的傳遞。電信技術(shù)的發(fā)展,使其數(shù)據(jù)交換的技術(shù)也隨之出現(xiàn)。

交換即轉(zhuǎn)接,是交換通信網(wǎng)中不可缺少的技術(shù)。交換是指按照某種方式對傳輸線路的資源進行分配,交換技術(shù)主要包含了報文的交換、分組的交換、線路的交換以及分組的交換等幾個方面。

目前的寬帶數(shù)據(jù)通信網(wǎng)出現(xiàn)了兩種不同的技術(shù),即IP與ATM,IP的網(wǎng)絡(luò)核心節(jié)點為太位路電器;ATM的網(wǎng)絡(luò)核心節(jié)點為ATM交換機,其目的為了實現(xiàn)信元的高速交換。

一、目前數(shù)據(jù)通信的幾種交換方式

(一)電路交換:能為任意一個入網(wǎng)的用戶提供一條臨時使用的物理信道,這種方式被稱為電路交換,是由通路的各節(jié)點內(nèi)部早空間上完成的信道接續(xù)而形成。這條物理信道始終被用于信息的傳輸,因此不允許被用于其他的計算機。

(二)分組交換:分組交換,同時也被稱作為包交換。它的主要作用是將用戶發(fā)來的數(shù)據(jù)分割成相同長度的數(shù)據(jù)包,因此被稱為打包或者分組。分組交換是指在每個數(shù)據(jù)包前面加一個分組頭,作為將發(fā)往何處的地址標(biāo)志,然后分組交換機會根據(jù)不同的地址標(biāo)志對其轉(zhuǎn)發(fā)到目的地。

(三)報文交換:報文交換,同時也被稱為信息交換方式。報文交換是將用戶之間不直接存在的信息進行接收以及發(fā)送的特殊物理信道。同時還將用戶正在進行交換的報文進行存儲,當(dāng)輸出電路出現(xiàn)空閑的情況時,再將報文發(fā)送到需要接收的交換機。

二、DDN

(一)DDN的工作方式:DDN作為高質(zhì)量、高寬帶的數(shù)字?jǐn)?shù)據(jù)通信網(wǎng),數(shù)字信道為信息傳輸?shù)闹饕诺?,因此不具有交換的功能。用戶的數(shù)據(jù)信息應(yīng)該根據(jù)之前約定好的協(xié)議,采用同步轉(zhuǎn)移的模式對數(shù)字進行分復(fù)用的技術(shù),所以必須在固定的時間內(nèi)對通信寬帶和速率傳輸進行事先設(shè)定。

(二)DDN提供的業(yè)務(wù):DDN網(wǎng)作為全透明的網(wǎng)絡(luò),因此可以為分組交換網(wǎng)和互聯(lián)網(wǎng)提供中繼電路;不僅可以對一點對提供多量的業(yè)務(wù);同時還可提供圖像、G3傳真以及語音和智能等多種業(yè)務(wù)來滿足用戶的要求。

三、FR

(一)FR的工作方式:FR的主要任務(wù)是將在原來的交換基礎(chǔ)上進行分組交換做出相對簡化數(shù)據(jù)傳輸新技術(shù)。它在OSI第二層主要采用簡化的方式進行數(shù)據(jù)的傳送和交換。因為FR僅完成OSI的物理層與核心層的功能,將控制流量以及糾錯等任務(wù)留給終端來完成,因此不僅使節(jié)點機之間的協(xié)議簡化,同時還提高了傳送的效率。

(二)FR的特點:1.傳輸效率高。2.產(chǎn)生的費用低。3.兼容性好以及組網(wǎng)的功能性強。4.網(wǎng)絡(luò)資源的使用率高。

(三)FR提供的業(yè)務(wù):FR主要使用的面向連接交換技術(shù),雖然能夠提供需要交換的PVC和SVC,但目前只能采用交換虛電路的方式。

四、IP

(一)IP的工作方式:IP交換是一種高效的IPoverATM技術(shù),同時也被稱為三層交換技術(shù)。簡單來講,三層交換技術(shù)即“二層交換技術(shù)加上路由轉(zhuǎn)發(fā)技術(shù)。”IP只對數(shù)據(jù)流中的第一個數(shù)據(jù)包進行路由地址的處理,由路由轉(zhuǎn)發(fā),繼而按照已經(jīng)計算好的路由在ATM網(wǎng)建立虛電路VC。這樣的處理方式使數(shù)據(jù)包在今后不用經(jīng)過路由器,可以直接沿著VC的方式進行傳輸,提高傳輸?shù)男省?/p>

(二)IP的交換的特點:1.因為彼此之間不存在連接建立時延,因此IP在進行交換的時候不需要事先建立通信線路,可以隨時將信息發(fā)送出去。2.通信的雙方可以不使用固定的通信線路,因此,提高了對通信線路的使用率。

(三)IP提供的業(yè)務(wù):適合多種業(yè)務(wù)的環(huán)境,目前主要使用于寬帶以及IP骨干的傳輸。

五、X.25

(一)X.25的工作方式:X.25的交換方式主要體現(xiàn)在傳統(tǒng)儲存轉(zhuǎn)發(fā)方式的基礎(chǔ)上,進而發(fā)展的一種新型交換方式。X.25的主要工作是將用戶發(fā)送的數(shù)據(jù)進行分割,每個分割后的分組都有一個分組頭,而分組頭的主要目的是為了指明將要發(fā)往的地址,最后按照地址的排列順序挨個進行交換網(wǎng)的發(fā)送。

(二)X.25的特點:因為X.25的交換動態(tài)主要為分配線路資源和傳輸?shù)男矢?,因此能為不同種類的終端提供互通的便捷。其具體內(nèi)容如下:1.交織傳輸。2.統(tǒng)計時分可復(fù)用:采用動態(tài)的方式對線路資源進行分配。3.邏輯信道:在分組的交換方式中,每條邏輯信道在一次呼叫過程中都有相應(yīng)的邏輯信道號。因此被用于用戶的區(qū)分。4.虛電路:虛電路是根據(jù)報文的需要,以及占用多個時隙相應(yīng)的緩沖空間而來的,因此,進行呼叫時不需要建立固定的物理通道。5.分組多路的通信:因為每個分組都有控制信息,所以分組型的終端可以做到與多個用戶終端同時通信。

(三)X.25提供的業(yè)務(wù):分組交換可以提供永久虛電路,同時還能開發(fā)以及提供增值的數(shù)據(jù)業(yè)務(wù)。

六、ATM

(一)ATM的工作方式:ATM的轉(zhuǎn)移模式是立于電路交換和分組交換的基礎(chǔ)上,主要目的是將數(shù)據(jù)分解成固定長度53B的信息,目前將這樣的分組叫做信元。而ATM主要以信元為單位進行復(fù)接、交換等工作。復(fù)用的時候只要具備信元就可以進行信息的發(fā)送工作。

(二)ATM的特點:1.不僅可以建立虛電路來進行數(shù)據(jù)的傳輸,同時支持無連接的業(yè)務(wù)。2.因為采用的數(shù)據(jù)包屬于固定長度的模式,因此有利于寬帶的交換。3.采用異步術(shù)同時能夠采用服用技術(shù)。4.ATM技術(shù)使其協(xié)議以及網(wǎng)絡(luò)功能得到簡化。

(三)ATM提供的業(yè)務(wù):ATM常用于局域網(wǎng)互聯(lián)、互聯(lián)網(wǎng)以及虛擬局域網(wǎng),還可用于電視領(lǐng)域。其主要優(yōu)點在使用的過程中可以提高速度。

篇9

關(guān)鍵詞 大數(shù)據(jù)分析;通信網(wǎng)絡(luò);監(jiān)控體系

中圖分類號 G2 文獻標(biāo)識碼 A 文章編號 1674-6708(2017)181-0015-02

通信網(wǎng)絡(luò)監(jiān)控體系的建立是為了能夠準(zhǔn)確、及時地發(fā)現(xiàn)通信網(wǎng)絡(luò)出現(xiàn)的問題,并能采取科學(xué)有效的措施來解決這些問題,以確保通信網(wǎng)絡(luò)的正常運營。大數(shù)據(jù)分析,顧名思義就是要進行大量的數(shù)據(jù)分析,這是在互聯(lián)網(wǎng)時代下應(yīng)運而生的產(chǎn)物,在通信網(wǎng)絡(luò)監(jiān)控體系的構(gòu)建及實施上有很強的應(yīng)用價值。因此,通過大數(shù)據(jù)分析,建立完善的通信網(wǎng)絡(luò)監(jiān)控體系是優(yōu)化和改進我國通信網(wǎng)絡(luò)發(fā)展的必然趨勢。

1 基于大數(shù)據(jù)分析的通信網(wǎng)絡(luò)監(jiān)控體系建立的必要性

互聯(lián)網(wǎng)時代,大數(shù)據(jù)在我國的很多行業(yè)領(lǐng)域中都有較為廣泛的應(yīng)用,比如計算機IT行業(yè)、商品零售業(yè)、醫(yī)療行業(yè)以及通信行業(yè),尤其是在與數(shù)據(jù)息息相關(guān)的通信網(wǎng)絡(luò)行業(yè)上,有很高的應(yīng)用價值。

一方面,通過大數(shù)據(jù)分析建立通信網(wǎng)絡(luò)監(jiān)控體系,能很好地起到?jīng)Q策的作用。利用一些能夠量化的手段把內(nèi)容轉(zhuǎn)化成數(shù)據(jù),并得以直觀的顯示,能讓一些潛在的內(nèi)容變得直觀和突出。在利用大數(shù)據(jù)進行分析時,能將一系列規(guī)模龐大的數(shù)據(jù)細分化,通過找出這些數(shù)據(jù)之間的相關(guān)性更有針對性地獲取所需要的信息。在數(shù)據(jù)挖掘技術(shù)不斷發(fā)展下,這種基于大數(shù)據(jù)分析建立起來的通信網(wǎng)絡(luò)監(jiān)控體系應(yīng)用越來越廣泛,其決策的價值體現(xiàn)的淋漓盡致。

另一方面,大數(shù)據(jù)所能產(chǎn)生的價值還體現(xiàn)在能產(chǎn)生足夠巨大的市場價值[ 1 ]。在當(dāng)今社會,數(shù)據(jù)不是某個領(lǐng)域、甚至說不是某一個人的專屬財產(chǎn),而是一種人人都能擁有的財產(chǎn),人們能夠通過自由的使用大數(shù)據(jù)來獲取所需要的信息,并產(chǎn)生一定的市場價值。甚至可以這樣說。好的數(shù)據(jù)信息就是企業(yè)管理部門、生產(chǎn)部門維持日常運行的一種動力,是企業(yè)決策者做出重大決策的基礎(chǔ)和依據(jù)。通過把控準(zhǔn)確的大數(shù)據(jù)信息,反饋到具體的人或企業(yè)后,能有效增強工作的效能、避免耗費大量的人力和物力,這種潛在的經(jīng)濟效益也是大數(shù)據(jù)的價值。

我國的通信網(wǎng)絡(luò)監(jiān)控體系最初是通過設(shè)備告警來實現(xiàn)的,即必須是收到了危險警告的數(shù)據(jù)信息后,才能開始搜集和分析,這種被動性的監(jiān)控體系,在大數(shù)據(jù)時代已經(jīng)過時了,是不智能和不精準(zhǔn)的。因此,針對這種設(shè)備告警建立起來的通信網(wǎng)絡(luò)監(jiān)控體系所存在的一些弱點和問題,應(yīng)該要結(jié)合大數(shù)據(jù)分析,建立更加科學(xué)和智能化的通信網(wǎng)絡(luò)監(jiān)控體系。

2 基于大數(shù)據(jù)分析通信網(wǎng)絡(luò)監(jiān)控體系的建立及實施

2.1 明確通信網(wǎng)絡(luò)監(jiān)控體系的設(shè)計流程

基于大數(shù)據(jù)分析建立的通信網(wǎng)絡(luò)監(jiān)控體系,要按照建立數(shù)據(jù)傳輸線路、通過專網(wǎng)采集終端數(shù)據(jù)信息、解析采集到的數(shù)據(jù)信息、將數(shù)據(jù)信息保存到相應(yīng)的數(shù)據(jù)庫中、對數(shù)據(jù)庫中的數(shù)據(jù)進行更新的流程來完成(見圖1)。具體實施上,數(shù)據(jù)采集人員將搜集到的客戶感知數(shù)據(jù)整理后并入數(shù)據(jù)庫,然后進入到區(qū)域網(wǎng)絡(luò)服務(wù)質(zhì)量系統(tǒng)內(nèi),把網(wǎng)絡(luò)結(jié)構(gòu)庫和綜合報警系統(tǒng)相結(jié)合后處理數(shù)據(jù)[ 2 ]。同時工作人員能通過分析后得到的數(shù)據(jù)加強對通信網(wǎng)絡(luò)的監(jiān)控和反饋,更好的完善服務(wù),增強客戶體驗。

2.2 以客戶感知度建立通信網(wǎng)絡(luò)監(jiān)控體系

總體來說,我國通信網(wǎng)絡(luò)監(jiān)控體系的建立必須要以客戶感知為出發(fā)點和終點。以客戶感知建立的通信網(wǎng)絡(luò)監(jiān)控體系內(nèi)容包括,客戶感知、網(wǎng)絡(luò)質(zhì)量分析處理、工單工資、網(wǎng)絡(luò)質(zhì)量保障、感知信息接收平臺、網(wǎng)絡(luò)運營數(shù)據(jù)中心、智能網(wǎng)管、區(qū)域網(wǎng)絡(luò)服務(wù)質(zhì)量視圖、客調(diào)系統(tǒng)等。即將搜集到的客戶感知信息錄入數(shù)據(jù)庫,建立區(qū)域網(wǎng)絡(luò)服務(wù)質(zhì)量視圖,并通過顏色區(qū)分網(wǎng)絡(luò)服務(wù)質(zhì)量等級,建立有針對性的網(wǎng)絡(luò)維護、優(yōu)化和發(fā)展建議,達到回饋、接收、執(zhí)行的目的。這一系列工作的完成大致就說從采集和分析客戶感知信息數(shù)據(jù)兩個路徑入手。

2.2.1 采取客戶感知信息數(shù)據(jù)

在通信網(wǎng)絡(luò)監(jiān)控體系下,采取客戶感知信息數(shù)據(jù)有很多個渠道,比如寬帶用戶、客戶的無線終端、感知終端等。在寬帶用戶上,工作人員在寬帶客戶終端集成相應(yīng)的軟件或在客戶計算機上安裝相應(yīng)的軟件,通過軟件獲取客戶位置信息、下載數(shù)據(jù),并利用數(shù)據(jù)通道將這些數(shù)據(jù)上傳到信息接收平臺。又如在感知終端上,這種模擬客戶終端是一種特制的電信終端,能集成寬帶、窄帶、無線、電源接口,并對這些集成體進行測試,記錄好下載速度、信號強度、客戶位置、通話質(zhì)量等信息。為獲取信息,可以將感知終端安裝在通信網(wǎng)絡(luò)中的一個節(jié)點上,利用PING測試該節(jié)點及其下游的各種設(shè)備,進而獲取這些設(shè)備有無在線服務(wù)的信息[ 3 ]。同時,也可以在大客戶的接入點上進行安裝,達到接收信息的目的。

2.2.2 分析客戶感知信息數(shù)據(jù)

在接收到大量的客戶感知信息數(shù)據(jù)后,工作人員就要對這些數(shù)據(jù)進行科學(xué)有效的分析,這是很關(guān)鍵的步驟。工作人員將這些信息分類或分區(qū)域存入數(shù)據(jù)庫后,要結(jié)合設(shè)備警告、資源庫、網(wǎng)絡(luò)Y構(gòu)庫等完成分析和處理。比如某地的寬帶用戶或手機用戶上報了數(shù)據(jù)掉包的問題,利用大數(shù)據(jù)分析,就能快速的感知和接收到這個信息,并通過智能化分析后,及時分派工單,這樣就能快速解決客戶的問題,提高工作效率的同時,也能讓客戶更加放心的使用產(chǎn)品。

2.3 客戶感知通信網(wǎng)絡(luò)監(jiān)控體系的優(yōu)點及效果

這種以客戶感知為核心原則建立起來的網(wǎng)絡(luò)監(jiān)控體系主要有3個優(yōu)勢:

一是能大量的搜集到客戶的信息。通過大數(shù)據(jù)分析建立客戶感知的網(wǎng)絡(luò)監(jiān)控體系能搜集到海量的客戶信息,這樣就避免了遺漏或搜集錯誤的問題,對最終的分析結(jié)果準(zhǔn)確性有了基本的保障。

二是能提高分析的精準(zhǔn)性。一般而言,通信網(wǎng)絡(luò)監(jiān)控體系最終服務(wù)的是網(wǎng)底層的用戶,而大數(shù)據(jù)分析一般也是來自底層,所以這種形式的網(wǎng)絡(luò)監(jiān)控和數(shù)據(jù)分析準(zhǔn)確度有了更好的保證。

三是實現(xiàn)監(jiān)控的高效性[ 4 ]。通過對信息數(shù)據(jù)的實時采集和動態(tài)的、智能化的分析后,不僅能提高反應(yīng)的速度,快速地察覺到網(wǎng)絡(luò)中存在的問題,更主要的是能對網(wǎng)絡(luò)實現(xiàn)全覆蓋的監(jiān)控,杜絕監(jiān)控盲區(qū)的出現(xiàn)。

3 結(jié)論

總之,與傳統(tǒng)的通信網(wǎng)絡(luò)監(jiān)控體系相比,以客戶感知為核心原則建立起來的網(wǎng)絡(luò)監(jiān)控體系所搜集到的信息更全、分析和監(jiān)控的結(jié)構(gòu)更為精準(zhǔn)、分析和監(jiān)控的范圍更廣,很好地滿足了客戶隨時隨地服務(wù)的需求。同時,客戶感知通信網(wǎng)絡(luò)監(jiān)控體系的建立,大大提高了網(wǎng)絡(luò)通信的質(zhì)量,推動了我國通信行業(yè)的穩(wěn)定、可持續(xù)性發(fā)展。

參考文獻

[1]龐倩.數(shù)據(jù)視閾下通信網(wǎng)絡(luò)的監(jiān)控體系研究[J].通訊世界,2016,23(21):19-20.

[2]陳威.移動通信運維大數(shù)據(jù)應(yīng)用價值探討研究[J].信息通信,2016,30(10):25-26.

篇10

文獻標(biāo)識碼:A 文章編號:1672-7800(2015)005-0098-02

作者簡介:陳冠星(1984-),男,廣東揭陽人,碩士,海南軟件職業(yè)技術(shù)學(xué)院網(wǎng)絡(luò)工程系助教,研究方向為數(shù)據(jù)庫、網(wǎng)絡(luò)技術(shù)與物聯(lián)網(wǎng)。

1 數(shù)據(jù)倉庫簡介

數(shù)據(jù)倉庫(Data Warehouse,DW)是隨著關(guān)系數(shù)據(jù)庫、并行處理和分布式技術(shù)的飛速發(fā)展而產(chǎn)生的[1], W?H?Inmon出版了《Building the Data Warehouse》一書,給出了數(shù)據(jù)倉庫的定義:數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失的、隨時間變化的用來支持管理人員決策的數(shù)據(jù)集合[2]。數(shù)據(jù)倉庫包含的是整個企業(yè)視圖的粒度化數(shù)據(jù)。

數(shù)據(jù)倉庫系統(tǒng)通常對多個異構(gòu)數(shù)據(jù)源有效集成,集成后按照主題進行重組[3]。存放在數(shù)據(jù)倉庫中的數(shù)據(jù)通常不再修改,用作進一步的分析型數(shù)據(jù)處理。

數(shù)據(jù)倉庫系統(tǒng)的建立和開發(fā)以企事業(yè)單位的現(xiàn)有業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ) [4],其開發(fā)是一個循環(huán)迭代過程,通常需要企業(yè)有一定的業(yè)務(wù)數(shù)據(jù)積累,開發(fā)人員將這些歷史數(shù)據(jù)通過ETL輸入到數(shù)據(jù)倉庫中,進行分析和統(tǒng)計,以建立決策支持輔助系統(tǒng),為企事業(yè)單位管理者提供決策支持。

2 保險業(yè)需求分析

隨著保險業(yè)發(fā)展及保險市場競爭的加劇,保險公司在管理和運營方面面臨著更高的要求,來自監(jiān)管、競爭、技術(shù)更新及全球化等各方面的壓力不斷考驗著保險企業(yè)。保險業(yè)發(fā)展的核心動力表現(xiàn)在以下幾個方面:①進入新分市場及提高業(yè)務(wù)質(zhì)量;②鞏固客戶忠誠度,適應(yīng)客戶多變的需求;③高效的運營;④精確的風(fēng)險及成本控制;⑤消除各種技術(shù)壁壘。

要做到上述目標(biāo)并不容易。對高層管理者來說,由于統(tǒng)計口徑的關(guān)系,很難獲取一致性數(shù)據(jù)進行比對,很難及時監(jiān)控到業(yè)務(wù)狀況,不能有效地進行決策支持。對于業(yè)務(wù)部門主管與業(yè)務(wù)分析員,所需報表難以及時獲取,即使取得的數(shù)據(jù)也難用于多視角、全方位地分析業(yè)務(wù)問題。對于IT部門來說,要不斷幫助業(yè)務(wù)部門制作報表,時間相對較長,而且開發(fā)的報表越多,特別是分析型的報表越多,業(yè)務(wù)系統(tǒng)性能越受影響。

以某人壽保險有限公司為例,該公司的數(shù)據(jù)支持情況如下:

(1)保單管理系統(tǒng)中大致有50張左右的報表在運行,但隨著公司業(yè)務(wù)的發(fā)展,數(shù)據(jù)分析及用于日常管理的制式報表與日俱增,報表數(shù)量將很快無法滿足業(yè)務(wù)發(fā)展需求。

(2)各業(yè)務(wù)管理部門有各自的制式報表及統(tǒng)計需求,但在將數(shù)據(jù)匯總時,時常出現(xiàn)因統(tǒng)計時點不同、指標(biāo)定義的理解差異等原因造成數(shù)據(jù)不一致,導(dǎo)致額外的數(shù)據(jù)校驗工作。

(3)當(dāng)前報表的IT實現(xiàn)基本上是按照單個報表需求來設(shè)計的,造成IT設(shè)計無法復(fù)用,報表開發(fā)缺乏整體規(guī)劃,呈一種臨時性狀態(tài),隨著報表及統(tǒng)計需求的增加,IT相應(yīng)的工作將與日俱增。

(4)因當(dāng)前報表及數(shù)據(jù)統(tǒng)計都在保單管理系統(tǒng)中運行,隨著需求數(shù)量的增加,保單管理系統(tǒng)將面臨沉重的夜間批處理壓力并嚴(yán)重影響日間日常業(yè)務(wù)操作的效率及穩(wěn)定性。

針對上述系統(tǒng)現(xiàn)狀,在建設(shè)中決定采用數(shù)據(jù)建模、ETL、數(shù)據(jù)分析以及數(shù)據(jù)展現(xiàn)等技術(shù),實現(xiàn)風(fēng)險管控分析、客戶服務(wù)分析、客戶維持分析、市場銷售分析、綜合分析和綜合管理6大功能,達到以下目標(biāo):①代替原有手工報表方式,為業(yè)務(wù)人員節(jié)省時間;②提供精細的分析數(shù)據(jù)。業(yè)績分析可以從營業(yè)部,鉆取到營業(yè)組,甚至每個FC(理財顧問),保全分析可以分析每種保全項目的明細;③統(tǒng)一的分析口徑。各部門統(tǒng)計指標(biāo),可以在統(tǒng)一的時間點上進行公司級匯總;名稱一致的統(tǒng)計口徑,可以唯一定義一種統(tǒng)計方式;④唯一的報表平臺。從報表需求獲取到報表需求分析以及最后的實現(xiàn)都在一個體系下完成,公司數(shù)據(jù)分析工作逐步系統(tǒng)化和實用化。

3 系統(tǒng)設(shè)計

統(tǒng)計分析系統(tǒng)采用靈活架構(gòu),在構(gòu)建一個統(tǒng)一、穩(wěn)定的企業(yè)級數(shù)據(jù)倉庫基礎(chǔ)上,分步構(gòu)建各個獨立的分析應(yīng)用數(shù)據(jù)集市,滿足靈活性、擴展性要求,系統(tǒng)架構(gòu)如圖1所示。

保險數(shù)據(jù)倉庫是一個中央的知識數(shù)據(jù)庫,包含來自壽險系統(tǒng)、團險系統(tǒng)、短期險系統(tǒng)和電話銷售系統(tǒng)等源系統(tǒng)的源數(shù)據(jù),數(shù)據(jù)模型分為3層:

(1)數(shù)據(jù)準(zhǔn)備層(Staging Layer): 采用同源系統(tǒng)相似的數(shù)據(jù)結(jié)構(gòu)存儲源系統(tǒng)的每日增量數(shù)據(jù)。

(2)保險企業(yè)模型層(Insurance Enterprise Models Layer): 作為保險數(shù)據(jù)倉庫的核心,相應(yīng)的保險企業(yè)模型部署在該層。根據(jù)保險行業(yè)的業(yè)務(wù)視圖,保險企業(yè)模型分為10個主題,根據(jù)保險信息的特性而非事務(wù)處理的目的來設(shè)計,企業(yè)級上所有保險業(yè)務(wù)信息根據(jù)歷史版本進行記錄。在數(shù)據(jù)準(zhǔn)備層通過ETL(數(shù)據(jù)抽取轉(zhuǎn)換裝載程序)進行數(shù)據(jù)批處理,采用增量機制裝載進入保險企業(yè)模型。

(3)分析數(shù)據(jù)模型層(Analysis Data Models Layer): 各種各樣的數(shù)據(jù)分析需求歸類到不同的數(shù)據(jù)集市,如市場及銷售數(shù)據(jù)集市、運營效能數(shù)據(jù)集市、風(fēng)險管控數(shù)據(jù)集市等。分析數(shù)據(jù)模型即為滿足數(shù)據(jù)集市需求而采用維度建模方法特別設(shè)計的模型。分析數(shù)據(jù)模型從保險企業(yè)模型衍生而來,數(shù)據(jù)通過ETL 批處理,采用增量機制裝載進入保險企業(yè)模型。

ETL采用增量機制,每日從源系統(tǒng)抽取變更數(shù)據(jù)至Staging層,接著將Staging層數(shù)據(jù)轉(zhuǎn)換至企業(yè)模型和分析模型。在ETL批處理完成后,系統(tǒng)運行報表批處理生成報表并到相應(yīng)的報表文件服務(wù)器上。

OLAP元數(shù)據(jù)管理工具: 提供OLAP 元數(shù)據(jù)管理工具,用于管理所有OLAP 業(yè)務(wù)元數(shù)據(jù),包括指標(biāo)定義、維度層次定義、指標(biāo)與維度的關(guān)系及分析需求。通過使用這個工具可幫助保險企業(yè)統(tǒng)一KPI 定義及促進企業(yè)標(biāo)準(zhǔn)化管理,同時其管理的內(nèi)容可作為統(tǒng)計分析系統(tǒng)所支持的知識庫來使用。

OLAP平臺:選擇微軟的SQL Server 2008作為OLAP平臺。OLAP 工具支持分析的類型包括管理儀表盤、平衡記分卡、制式化管理報表、臨時查詢、數(shù)據(jù)挖掘等。

4 系統(tǒng)實現(xiàn)

4.1 ETL實現(xiàn)

ETL采用SQL Server集成服務(wù)來實現(xiàn)。Microsoft Integration Services 是一個可以生成高性能數(shù)據(jù)集成解決方案(包括為數(shù)據(jù)倉庫提取、轉(zhuǎn)換和加載ETL包)的平臺。Integration Services包括生成和調(diào)式包的圖形工具和向?qū)В粓?zhí)行工作流函數(shù)操作和執(zhí)行SQL腳本等任務(wù);提取和加載數(shù)據(jù)的數(shù)據(jù)源和目標(biāo);清除、聚合、合并和復(fù)制數(shù)據(jù)的轉(zhuǎn)換;管理包執(zhí)行和存儲的管理服務(wù),即Integration Services;用于Integration Services對象模型編程的應(yīng)用程序編程接口(API)。

4.2 多維數(shù)據(jù)實現(xiàn)

創(chuàng)建報表之前,需要通過SQL Server分析創(chuàng)建多維數(shù)據(jù)模型。之所以使用SQL Server分析服務(wù)創(chuàng)建多維模型,主要是為了實現(xiàn)對業(yè)務(wù)數(shù)據(jù)的即席查詢。系統(tǒng)開發(fā)人員創(chuàng)建多維數(shù)據(jù)集以支持快速響應(yīng),并提供單個數(shù)據(jù)源以進行業(yè)務(wù)報告。商業(yè)智能的重要性不斷提高,使用單一的分析數(shù)據(jù)源可確保將差異減到最?。ㄈ绻麩o法完全消除差異)。

4.3 報表系統(tǒng)實現(xiàn)

報表系統(tǒng)實現(xiàn)使用了SQL Server報表服務(wù),報表服務(wù)包含一整套管理報表的工具。報表工具在微軟的開發(fā)環(huán)境中工作,并與SQL Server無縫銜接。通過報表服務(wù),可以從多種不同的數(shù)據(jù)源創(chuàng)建各種不同樣式的報表。

5 應(yīng)用效果

該系統(tǒng)目前已經(jīng)在某人壽保險有限公司正式投入使用,結(jié)果顯示,該系統(tǒng)使業(yè)務(wù)數(shù)據(jù)的分析效率、分析能力大大提高,在一定程度上簡化了業(yè)務(wù)人員數(shù)據(jù)統(tǒng)計工作,對公司決策支持起到很大的幫助作用,系統(tǒng)良好的應(yīng)用價值體現(xiàn)在以下幾個方面:①數(shù)據(jù)集成。數(shù)據(jù)倉庫能夠把來自多個不同子系統(tǒng)的數(shù)據(jù)進行有效集成,提供統(tǒng)一的、一站式的業(yè)務(wù)報表系統(tǒng);②查詢靈活方便。統(tǒng)計分析系統(tǒng)能夠根據(jù)不同的需求進行條件過濾,并支持?jǐn)?shù)據(jù)向上向下鉆取,數(shù)據(jù)查詢方式更加靈活,追溯更加簡單直接,為業(yè)務(wù)分析人員提供了很大的便利;③安全性高。為了保證數(shù)據(jù)的安全性和可靠性,對數(shù)據(jù)倉庫中的數(shù)據(jù)實行統(tǒng)一管理;④降低成本。統(tǒng)計分析系統(tǒng)的建立,可以代替原來的手工匯總操作,一次創(chuàng)建,只需要進行簡單的維護就可長期使用。

6 結(jié)語

本系統(tǒng)開發(fā)及系統(tǒng)運行工作得到如下經(jīng)驗及啟示:

(1)理念的轉(zhuǎn)變。在數(shù)據(jù)分析上,需要從清單和簡單匯總上升到數(shù)據(jù)分析,從單個部門分析到全局分析,從數(shù)據(jù)庫到數(shù)據(jù)倉庫進行分析設(shè)計。