多層次數(shù)據(jù)分析論文
時(shí)間:2022-03-27 04:02:32
導(dǎo)語:多層次數(shù)據(jù)分析論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1海量數(shù)據(jù)處理流程
1.1數(shù)據(jù)采集
數(shù)據(jù)的采集是指利用傳感器、社交網(wǎng)絡(luò)以及移動(dòng)互聯(lián)網(wǎng)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的海量數(shù)據(jù),這是一切數(shù)據(jù)分析的基礎(chǔ)。數(shù)據(jù)的采集需要解決分布式高速高可靠數(shù)據(jù)的采集、高速數(shù)據(jù)全映像等數(shù)據(jù)收集技術(shù)。還要設(shè)計(jì)質(zhì)量評(píng)估模型,開發(fā)數(shù)據(jù)質(zhì)量技術(shù)。而數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識(shí)別體系及軟硬件資源接入系統(tǒng),實(shí)現(xiàn)對海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理等。
1.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)采集的過程本身就有會(huì)有很多數(shù)據(jù)庫,但如果想達(dá)到有效分析海量數(shù)據(jù)的目的,就必將這些來自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫,或者分布式存儲(chǔ)集群,而且在導(dǎo)入基礎(chǔ)上做一些簡單的辨析、抽取、清洗等操作。
①抽取:因?yàn)槲覀兺ㄟ^各種途徑獲取的數(shù)據(jù)可能存在多種結(jié)構(gòu)和類型,而數(shù)據(jù)抽取過程可以有效地將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)換為單一的結(jié)構(gòu)或者便于處理的類型。以達(dá)到快速分析處理的目的。
②清洗:對于海量數(shù)據(jù)而言,數(shù)據(jù)所處的價(jià)值層次不一樣,就必然存在由于價(jià)值低而導(dǎo)致開發(fā)成本偏大的數(shù)據(jù),還有與數(shù)據(jù)分析毫無關(guān)系的數(shù)據(jù),而另一些數(shù)據(jù)則是完全錯(cuò)誤的干擾項(xiàng),所以對數(shù)據(jù)通過過濾“去噪”從而提取出有效數(shù)據(jù)是十分重要的步驟。
1.3數(shù)據(jù)的存儲(chǔ)與管理
當(dāng)我們采集數(shù)據(jù)完成后,就需要將其存儲(chǔ)起來統(tǒng)一管理,主要途徑就是建立相應(yīng)的數(shù)據(jù)庫,進(jìn)行統(tǒng)一管理和調(diào)用。在此基礎(chǔ)上,需要解決大數(shù)據(jù)的可存儲(chǔ)、可表示、可處理、可靠性及有效傳輸?shù)葞讉€(gè)關(guān)鍵問題。還需開發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲(chǔ)、計(jì)算融入存儲(chǔ)、數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲(chǔ)技術(shù);以及分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù)、異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù)、數(shù)據(jù)組織技術(shù)、研究大數(shù)據(jù)建模技術(shù)、索引、移動(dòng)、備份、復(fù)制、可視化技術(shù)。
1.4數(shù)據(jù)的統(tǒng)計(jì)分析
一般情況下,統(tǒng)計(jì)與分析主要就是利用分布式數(shù)據(jù)庫,或者分布式計(jì)算集群來對存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會(huì)有極大的占用。
1.5數(shù)據(jù)分析與挖掘
所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫中的大量不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,揭示出隱含的、先前未知的并有潛在價(jià)值的信息的過程。與前面統(tǒng)計(jì)和分析過程不同的是,數(shù)據(jù)挖掘一般不會(huì)有預(yù)先設(shè)計(jì)好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型的算法有用于聚類的K-means、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
2數(shù)據(jù)分析的8個(gè)層次
2.1標(biāo)準(zhǔn)化報(bào)告(StandardReports)
標(biāo)準(zhǔn)化報(bào)告作為數(shù)據(jù)分析的第一個(gè)層次,要求相對較低,主要是借助相應(yīng)的統(tǒng)計(jì)工具對數(shù)據(jù)進(jìn)行歸納總結(jié),得出包含主要參數(shù)指標(biāo)的標(biāo)準(zhǔn)化報(bào)告。類似于一個(gè)銷售企業(yè)每月或者每季度的財(cái)務(wù)報(bào)表。
2.2即席查詢(AdHocReports)
用戶可以通過自己的需求,靈活地選擇查詢條件,系統(tǒng)就能夠根據(jù)用戶的需求選擇生成相應(yīng)的統(tǒng)計(jì)報(bào)表。即席查詢與普通應(yīng)用查詢最大的不同是普通的應(yīng)用查詢是定制開發(fā)的,而即席查詢所有的查詢條件都是用戶自己定義的。在面向高層的數(shù)據(jù)分析軟件中,用戶隨意添加想要查詢的指標(biāo)按鈕再加上相應(yīng)的限制條件,就可以立即生成可視化的統(tǒng)計(jì)結(jié)果,不僅一目了然,而且沒有任何操作難度。
2.3多維分析(QueryDrilldown)
多維分析是指對具有多個(gè)維度和指標(biāo)所組成的數(shù)據(jù)模型進(jìn)行的可視化分析手段的統(tǒng)稱,常用的分析方式包括:下鉆、上卷、切片(切塊)、旋轉(zhuǎn)等各種分析操作。以便剖析數(shù)據(jù),使分析者、決策者能從多個(gè)角度多個(gè)側(cè)面觀察數(shù)據(jù),從而深入了解包含在數(shù)據(jù)中的信息和內(nèi)涵。上卷是在數(shù)據(jù)立方體中執(zhí)行聚集操作,通過在維級(jí)別中上升或通過消除某個(gè)或某些維來觀察更概括的數(shù)據(jù)。上卷的另外一種情況是通過消除一個(gè)或者多個(gè)維來觀察更加概括的數(shù)據(jù)。下鉆是在維級(jí)別中下降或者通過引入某個(gè)或者某些維來更細(xì)致地觀察數(shù)據(jù)。切片是在給定的數(shù)據(jù)立方體一個(gè)維上進(jìn)行的選擇操作,切片的結(jié)果是得到了一個(gè)二維的平面數(shù)據(jù)(切塊是在給定的數(shù)據(jù)立方體的兩個(gè)或者多個(gè)維上進(jìn)行選擇操作,而切塊的結(jié)果是得到了一個(gè)子立方塊)。轉(zhuǎn)軸相對比較簡單,就是改變維的方向。
2.4儀表盤與模擬分析(Alerts)
儀表盤用于監(jiān)控一些關(guān)鍵指標(biāo)。模擬分析是由操作者動(dòng)態(tài)地加以調(diào)節(jié)的控件(如滑動(dòng)塊、可調(diào)旋鈕、選擇框等),來控制管理決策模型行為某些參數(shù)。當(dāng)操作者通過控制面板對模型中的參數(shù)值或變量值進(jìn)行調(diào)節(jié)時(shí),圖形中的曲線、柱形組或分析指標(biāo)等要素就會(huì)發(fā)生相應(yīng)的運(yùn)動(dòng),而這種運(yùn)動(dòng)正好反映了該參數(shù)的變化對模型行為的影響,如果這種變動(dòng)引起了模型中最優(yōu)解或其他關(guān)鍵數(shù)字的變化,能夠隨時(shí)將關(guān)于這種變化的結(jié)論正確地顯示出來。
2.5統(tǒng)計(jì)分析(StatisticallyAnalysis)
我們知道概率論是數(shù)理統(tǒng)計(jì)的基礎(chǔ),數(shù)理統(tǒng)計(jì)是在其基礎(chǔ)上研究隨機(jī)變量,并應(yīng)用概率論的知識(shí)做出合理的估計(jì)、推斷與預(yù)測。概率論中討論的各種分布在數(shù)理統(tǒng)計(jì)中作為統(tǒng)計(jì)模型來分析處理帶有隨機(jī)誤差的數(shù)據(jù)。典型的數(shù)理統(tǒng)計(jì)方法有參數(shù)估計(jì)、假設(shè)檢驗(yàn)和回歸分析。而統(tǒng)計(jì)分析主要是對用戶所關(guān)注的問題進(jìn)行推斷、預(yù)測和控制的分析方法。具體可以分為以下三方面:
①描述統(tǒng)計(jì):主要是集中趨勢、離散程度、分布形狀等,統(tǒng)計(jì)圖(方圖、箱線圖、散點(diǎn)圖等);
②數(shù)據(jù)的分類匯總;
③基礎(chǔ)統(tǒng)計(jì)分析:方差分析、時(shí)間序列分析、相關(guān)和回歸分析、(主成分)因子分析等統(tǒng)計(jì)分析方法。
2.6預(yù)測(Forecasting)
在統(tǒng)計(jì)分析和數(shù)據(jù)挖掘領(lǐng)域,對未來的預(yù)測已經(jīng)有了很多數(shù)學(xué)模型以及解決具體問題的相關(guān)算法。其核心思想便是從歷史數(shù)據(jù)中找出數(shù)據(jù)的發(fā)展模式,然后以這些模式為支點(diǎn),就可以對未來進(jìn)行預(yù)測。
2.7預(yù)測模型(PredictiveModeling)
隨著數(shù)據(jù)分析學(xué)家對數(shù)據(jù)挖掘技術(shù)的不斷探索,出現(xiàn)了很多預(yù)測模型以及與之相對應(yīng)的算法,但是很難確定某個(gè)模型是最精確的,因?yàn)椴煌念I(lǐng)域,不同的條件,對應(yīng)的預(yù)測模型是不一樣的,所以沒有統(tǒng)一化的最優(yōu)模型,只存在有選擇性的最優(yōu)模型。下面介紹幾種典型的預(yù)測模型。
①回歸模型:回歸模型可以分為一元線性回歸模型和多元線性回歸模型。一元線性回歸模型可表示為yt=b0+b1xt+ut,該式表示變量yt和xt之間的真實(shí)關(guān)系。其中yt稱作被解釋變量(或相依變量、因變量),xt稱作解釋變量(或獨(dú)立變量、自變量),ut稱作隨機(jī)誤差項(xiàng),b0稱作常數(shù)項(xiàng)(截距項(xiàng)),b1稱作回歸系數(shù)。b0+b1xt是非隨機(jī)部分,ut是隨機(jī)部分。而在很多情況下,回歸模型必包含兩個(gè)或更多自變量才能夠適應(yīng)地描述經(jīng)濟(jì)現(xiàn)象各相關(guān)量之間的聯(lián)系,這就是多元線性回歸模型需要解決的問題,其一般形式為:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是這個(gè)多元回歸問題的m個(gè)自變量,b1、b2、…、bm是回歸方程對應(yīng)于各自變量的系數(shù),又稱偏回歸系數(shù)。
②貝葉斯網(wǎng)絡(luò):貝葉斯網(wǎng)絡(luò)是基于概率推理的數(shù)學(xué)模型,而概率推理是通過一些產(chǎn)量的信息來獲取其他概率信息的過程。貝葉斯網(wǎng)絡(luò)會(huì)建立一個(gè)有向無環(huán)圖和一個(gè)概率表集合,有向無環(huán)圖中的每一個(gè)節(jié)點(diǎn)便是一個(gè)隨機(jī)變量,而有向邊表示隨機(jī)變量間的條件依賴,條件概率表中的每一個(gè)元素對應(yīng)有向無環(huán)圖中唯一的節(jié)點(diǎn),存儲(chǔ)此節(jié)點(diǎn)對其所有直接前驅(qū)節(jié)點(diǎn)的條件概率。貝葉斯網(wǎng)絡(luò)是為了解決不定性與不完整性問題而提出的,在多個(gè)領(lǐng)域中獲得廣泛應(yīng)用。
③基于時(shí)間序列分析的指數(shù)平滑模型在時(shí)間序列分析中指數(shù)平滑模型是最靈活和準(zhǔn)確的方法,在經(jīng)濟(jì)領(lǐng)域也被證明是最有效的預(yù)測模型。在不同的時(shí)間序列下,指數(shù)平滑模型可以分為簡單指數(shù)平滑法、帶有趨勢調(diào)整的指數(shù)平滑法、帶有阻尼趨勢的指數(shù)平滑法、簡單季節(jié)指數(shù)平滑法、帶有趨勢和季節(jié)調(diào)整的指數(shù)平滑法五種不復(fù)雜度的模型。
2.8最優(yōu)化
(Optimization)因?yàn)閮?yōu)化問題往往可以帶來巨額的收益,通過一系列可行的優(yōu)化,可以使收益得到顯著提高。所謂最優(yōu)化就是從有限或者無限種可行的方案中選取最優(yōu)的方案。如果可以通過簡單的評(píng)判,就可以確定最優(yōu)方案那是最好的。但是事實(shí)不會(huì)那么簡單,所以優(yōu)化技術(shù)已經(jīng)發(fā)展出了一系列的理論來解決實(shí)際問題。其常用的優(yōu)化技術(shù)為:
①線性規(guī)劃:當(dāng)目標(biāo)函數(shù)與約束函數(shù)都是線性函數(shù)時(shí),就是一個(gè)線性規(guī)劃問題。而當(dāng)同時(shí)滿足約束函數(shù)和目標(biāo)函數(shù)時(shí),則可以認(rèn)為是最優(yōu)解。
②整數(shù)規(guī)劃:要求決策變量取整數(shù)值的數(shù)學(xué)規(guī)劃。
③多目標(biāo)規(guī)劃:指衡量一個(gè)決策優(yōu)劣的標(biāo)準(zhǔn)不止一個(gè),也就是有多目標(biāo)函數(shù)。
④動(dòng)態(tài)規(guī)劃:將一個(gè)復(fù)雜的問題劃分為多個(gè)階段,逐段求解,最終求出全局最優(yōu)解。
3用Excel實(shí)現(xiàn)簡單的數(shù)據(jù)分析
①對于企業(yè)而言最重要的是利潤,所以管理者必須要從這張表中得到最關(guān)鍵也最容易得到的銷量和銷售額以及與其相關(guān)的一些數(shù)據(jù),通常是用最基本的數(shù)理統(tǒng)計(jì)結(jié)果來直觀地反映該企業(yè)在某個(gè)期間的盈利情況。
②其次,我們必須要做進(jìn)一步的分析。已經(jīng)對整體的情況有了一定的把握,所以就可以朝著不同的方向去挖掘一些有價(jià)值的信息,為企業(yè)高層做決策提供有力的依據(jù)。對產(chǎn)品銷售而言,客戶結(jié)構(gòu)能夠有效地反映客戶的地域分布,企業(yè)可以根據(jù)客戶的來源,在未開辟客戶的地域去尋找新的目標(biāo)客戶群。而銷量結(jié)構(gòu)可以直觀地反映企業(yè)最大銷量來自哪個(gè)地區(qū),對銷量較小的地區(qū)可以加大宣傳力度或者增加銷售網(wǎng)點(diǎn)來保持各地區(qū)銷售均衡。還可以及時(shí)地調(diào)整銷售方式來擴(kuò)大市場份額,而對于銷量最小的地區(qū)考慮開辟新的市場。
統(tǒng)計(jì)了各地區(qū)的銷售總額和平均銷售額以及兩者的對比關(guān)系。由此可以得出地區(qū)平均購買力大小,以及各地區(qū)總銷售額大小。借助圖表描述,管理者可以對企業(yè)在某段期間內(nèi)的銷售狀況有一個(gè)大概的把握,只有掌握了這些的信息,才能更細(xì)化地去研究具體的影響因素。劃分等級(jí),對于經(jīng)常性大量購買的客戶必須要以最優(yōu)惠的價(jià)格和最好的服務(wù)讓其滿意,以形成一個(gè)穩(wěn)定的大客戶群。而對于那些少量購買的客戶,也要制定出相應(yīng)合適的方案來留住客戶。所以,分析銷售額的分布情況,可以掌握客戶的購買力度而且還能及時(shí)做一些留住大客戶的舉措。
4用R語言實(shí)現(xiàn)數(shù)據(jù)多層次分析
R語言是一種自由軟件編程語言與操作環(huán)境,是一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件系統(tǒng),它是一種用來進(jìn)行數(shù)據(jù)探索、統(tǒng)計(jì)分析和作圖的解釋型語言。它可以提供一些集成的統(tǒng)計(jì)工具,但更大量的是它提供各種數(shù)學(xué)計(jì)算、統(tǒng)計(jì)計(jì)算的函數(shù),從而使使用者能靈活機(jī)動(dòng)地進(jìn)行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計(jì)計(jì)算方法。而在使用R語言進(jìn)行數(shù)據(jù)分析處理時(shí),當(dāng)我們遇到很大的原始數(shù)據(jù),但用來建模的數(shù)據(jù)較小,則可以先在數(shù)據(jù)庫中進(jìn)行整理,然后通過R與數(shù)據(jù)庫的接口提取數(shù)據(jù),數(shù)據(jù)庫適合存放和整理比較規(guī)整的數(shù)據(jù),和R中的數(shù)據(jù)框有良好的對應(yīng)關(guān)系,這也是R中絕大多數(shù)統(tǒng)計(jì)模型的標(biāo)準(zhǔn)數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)庫中大部分的運(yùn)算都不需要消耗很大的內(nèi)存。
5結(jié)語
多層次數(shù)據(jù)分析在管理上有十分重要的意義,因?yàn)樗a(chǎn)生的價(jià)值是完全建立在真實(shí)的數(shù)據(jù)層面,而對一個(gè)企業(yè)而言搜集數(shù)據(jù)模式的改進(jìn)是管理過程的完善,對企業(yè)符合時(shí)代潮流和規(guī)范管理過程是至關(guān)重要的。多層次數(shù)據(jù)分析能夠及時(shí)糾正企業(yè)錯(cuò)誤的決策,能夠?qū)M(jìn)度展開實(shí)時(shí)跟蹤,還能了解成本管制情況和人員思想動(dòng)態(tài)等。對于個(gè)人而言,數(shù)據(jù)分析可以幫助我們更好地去生活,消費(fèi)者可以通過分析結(jié)果去選擇物美價(jià)廉的商品。還可以用數(shù)學(xué)模型來分析電影的票房,來減少不必要的損失等。總之,大數(shù)據(jù)時(shí)代多層次數(shù)據(jù)分析的價(jià)值是無可估量的,它可以囊括我們能想到方方面面以及我們現(xiàn)在還想不到的一些領(lǐng)域。也許,在不久的將來數(shù)據(jù)分析技術(shù)會(huì)變成一個(gè)獨(dú)立的學(xué)科,而掌握數(shù)據(jù)分析技術(shù)是以后社會(huì)中人才必備的技能。
作者:祁鵬年單位:長沙理工大學(xué)經(jīng)濟(jì)與管理學(xué)院