大數(shù)據(jù)智能分析技術(shù)研究

時(shí)間:2022-06-05 03:22:42

導(dǎo)語:大數(shù)據(jù)智能分析技術(shù)研究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

大數(shù)據(jù)智能分析技術(shù)研究

摘要:文章介紹了一種用于大數(shù)據(jù)智能分析平臺(tái)的數(shù)據(jù)分析方法及實(shí)現(xiàn)技術(shù),介紹了這種方法的需求和意義;和該方法的總體架構(gòu),以及在數(shù)據(jù)傳輸、數(shù)據(jù)清洗和數(shù)據(jù)分析的實(shí)現(xiàn);概述了這種技術(shù)高并發(fā)、大數(shù)據(jù)量的優(yōu)化措施和跨平臺(tái)的實(shí)現(xiàn)。

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘

1綜述

1.1簡(jiǎn)介

在數(shù)字化時(shí)代,需要新一代系統(tǒng)架構(gòu)提升業(yè)務(wù)創(chuàng)新能力。在新一代系統(tǒng)架構(gòu)中,大數(shù)據(jù)是核心要素。業(yè)務(wù)應(yīng)用能否自主發(fā)現(xiàn)與自助獲得高質(zhì)量的大數(shù)據(jù),就成為業(yè)務(wù)創(chuàng)新成敗的關(guān)鍵。這就要在搭建大數(shù)據(jù)平臺(tái)時(shí),就著手大數(shù)據(jù)治理相關(guān)建設(shè)。

1.2需求和意義

從某種意義上說大數(shù)據(jù)治理架構(gòu)需要以元數(shù)據(jù)為核心、提高大數(shù)據(jù)質(zhì)量、透明化大數(shù)據(jù)資產(chǎn)、自助化數(shù)據(jù)開發(fā)、自動(dòng)化數(shù)據(jù)、智能化數(shù)據(jù)安全,提升大數(shù)據(jù)平臺(tái)服務(wù)能力,讓大數(shù)據(jù)平臺(tái)變得易使用、易獲得、高質(zhì)量。但是,目前很多技術(shù)解決方案存在諸多安全和效率隱患:業(yè)務(wù)系統(tǒng)多,監(jiān)管力度大;數(shù)據(jù)量龐大且呈碎片化分布,急需提升大數(shù)據(jù)質(zhì)量;數(shù)據(jù)格式不規(guī)范、難以在短時(shí)間內(nèi)找到所需數(shù)據(jù);數(shù)據(jù)在各階段的應(yīng)用角度不同,需要降低系統(tǒng)間的集成復(fù)雜度。

2功能設(shè)計(jì)

2.1總體架構(gòu)

本文講述的數(shù)據(jù)分析方法及實(shí)現(xiàn)技術(shù)是建立在Hadoop/Spark技術(shù)生態(tài)圈的基礎(chǔ)之上,以實(shí)現(xiàn)用戶集成處理、、清理、分析的一個(gè)統(tǒng)一的數(shù)據(jù)處理平臺(tái);按數(shù)據(jù)類別分為線數(shù)據(jù)、歸檔數(shù)據(jù);按數(shù)據(jù)格式分為非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù);按數(shù)據(jù)模型分類為范式化模型數(shù)據(jù)、維度模型數(shù)據(jù);按數(shù)據(jù)采集頻度分為非實(shí)時(shí)數(shù)據(jù)、準(zhǔn)實(shí)時(shí)數(shù)據(jù)處理架構(gòu);并提供數(shù)據(jù)中心平臺(tái)與安全管理方案,為企業(yè)級(jí)用戶建立一個(gè)通用數(shù)據(jù)處理和分析中心。如圖1所示。

2.2在線數(shù)據(jù)

在線數(shù)據(jù)在線通過接口去獲得的數(shù)據(jù),一般要求為秒級(jí)或速度更快。首先應(yīng)當(dāng)將數(shù)據(jù)進(jìn)行區(qū)分:在線數(shù)據(jù)、或歸檔數(shù)據(jù)。本平臺(tái)中采用:Storm或SparkStreaming框架進(jìn)行實(shí)現(xiàn)。SparkStreaming將數(shù)據(jù)切分成片段,變成小批量時(shí)間間隔處理,Spark抽象一個(gè)持續(xù)的數(shù)據(jù)流稱為DStream(離散流),一個(gè)DStream是RDD彈性分布式數(shù)據(jù)集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數(shù)操作,也可以通過一個(gè)滑動(dòng)窗口的數(shù)據(jù)進(jìn)行變換。

2.3歸檔數(shù)據(jù)

歸檔數(shù)據(jù)是在線存儲(chǔ)周期超過數(shù)據(jù)生命周期規(guī)劃的數(shù)據(jù),處理的要求一般在分鐘級(jí)或速度更慢。通常歸檔數(shù)據(jù)的計(jì)算量、數(shù)據(jù)量、數(shù)據(jù)復(fù)雜度均超過試試數(shù)據(jù)處理。本平臺(tái)中采用:Hadoop、Spark技術(shù)生態(tài)體系內(nèi)的框架進(jìn)行計(jì)算,這里不詳細(xì)闡述。

2.4非結(jié)構(gòu)化數(shù)據(jù)

通常非結(jié)構(gòu)化的數(shù)據(jù)不一定具備字段,即使具備字段其長(zhǎng)度也不固定,并且字段的又可是由可不可重復(fù)和重復(fù)的子字段組成,不僅可以包含結(jié)構(gòu)化數(shù)據(jù),更適合處理非結(jié)構(gòu)化數(shù)據(jù)。常見的非結(jié)構(gòu)化數(shù)據(jù)包括XML、文本、圖象、聲音、影音、各類應(yīng)用軟件產(chǎn)生的文件。針對(duì)包含文字、數(shù)據(jù)的為結(jié)構(gòu)化數(shù)據(jù)應(yīng)當(dāng)先利用數(shù)據(jù)清洗、數(shù)據(jù)治理工具進(jìn)行提取,這項(xiàng)工作目前仍依賴技術(shù)員進(jìn)行操作,由于格式的復(fù)雜性所以難以使用自動(dòng)化方式進(jìn)行較為高效的批處理。在治理數(shù)據(jù)的過程中,需要根據(jù)情況對(duì)數(shù)據(jù)本身額外建立描述數(shù)據(jù)結(jié)構(gòu)的元數(shù)據(jù)、以及檢索數(shù)據(jù)的索引服務(wù),以便后續(xù)更佳深度利用數(shù)據(jù)。

2.5結(jié)構(gòu)化數(shù)據(jù)

結(jié)構(gòu)化數(shù)據(jù)具備特定的數(shù)據(jù)結(jié)構(gòu),通??梢赞D(zhuǎn)換后最終用二維的結(jié)構(gòu)的數(shù)據(jù),并且其字段的含義明確,是挖掘數(shù)據(jù)價(jià)值的主要對(duì)象。本平臺(tái)中主要使用HadoopImpala和SparkSQL來進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的處理。Impale底層采用C++實(shí)現(xiàn),而非Hadoop的基于Java的Map-Reduce機(jī)制,將性能提高了1-2個(gè)數(shù)量級(jí)。而SparkSQL提供很好的性能并且與Shark、Hive兼容。提供了對(duì)結(jié)構(gòu)化數(shù)據(jù)的簡(jiǎn)便的narrow-waist操作,為高級(jí)的數(shù)據(jù)分析統(tǒng)一了SQL結(jié)構(gòu)化查詢語言與命令式語言的混合使用。結(jié)構(gòu)化數(shù)據(jù)根據(jù)采集頻度可以繼續(xù)分類為:非實(shí)時(shí)數(shù)據(jù)、準(zhǔn)實(shí)時(shí)數(shù)據(jù)。

2.6準(zhǔn)實(shí)時(shí)數(shù)據(jù)

通常準(zhǔn)實(shí)時(shí)數(shù)據(jù)是指數(shù)據(jù)存儲(chǔ)在平臺(tái)本身,但更新頻率接近于接口調(diào)用數(shù)據(jù)源的數(shù)據(jù)。適合用于支持?jǐn)?shù)據(jù)和信息的查詢,但數(shù)據(jù)的再處理度不高,具有計(jì)算并發(fā)度高、數(shù)據(jù)規(guī)模大、結(jié)果可靠性較高的特點(diǎn)。通常使用分布式數(shù)據(jù)處理提高數(shù)據(jù)規(guī)模、使用內(nèi)存數(shù)據(jù)進(jìn)行計(jì)算過程緩沖和優(yōu)化。本平臺(tái)主要采用SparkSQL結(jié)合高速緩存Redis的技術(shù)來實(shí)現(xiàn)。SparkSQL作為大數(shù)據(jù)的基本查詢框架,Redis作為高速緩存去緩存數(shù)據(jù)熱區(qū),減小高并發(fā)下的系統(tǒng)負(fù)載。

2.7非實(shí)時(shí)數(shù)據(jù)

非實(shí)時(shí)數(shù)據(jù)主要應(yīng)用于支持分析型應(yīng)用,時(shí)效性較低。通常用于數(shù)據(jù)的深度利用和挖掘,例如:因素分析、信息分類、語義網(wǎng)絡(luò)、圖計(jì)算、數(shù)值擬合等。非實(shí)時(shí)數(shù)據(jù)根據(jù)數(shù)據(jù)模型可繼續(xù)分類為:范式化模型數(shù)據(jù)、維度模型數(shù)據(jù)。

2.8范式化模型

范式化模型主要是針對(duì)關(guān)系型數(shù)據(jù)庫設(shè)計(jì)范式,通常數(shù)據(jù)是采用第三范式3NF或更高范式。面向近源數(shù)據(jù)查詢、數(shù)據(jù)主題的整合。范式化模型數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)區(qū),建議使用并行MPP數(shù)據(jù)庫集群,既具備關(guān)系型數(shù)據(jù)庫的優(yōu)點(diǎn),又兼顧了大數(shù)據(jù)下的處理。

2.9基于維度模型

維度模型數(shù)據(jù)主要應(yīng)用于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)挖掘和分析。過去多維度數(shù)據(jù)處理主要依賴OLAP、BI等中間件技術(shù),而在大數(shù)據(jù)和開源框架的時(shí)代下,本技術(shù)平臺(tái)采用HadoopImpala來進(jìn)行實(shí)現(xiàn)。Im-pala并沒有使用MapReduce這種不太適合做SQL查詢的范式,而是參考了MPP并行數(shù)據(jù)庫的思想另起爐灶,省掉不必要的shuffle、sort等開銷,使運(yùn)算得到優(yōu)化。

3應(yīng)用效果

本系統(tǒng)在不同的業(yè)務(wù)領(lǐng)域上都可以應(yīng)用,以2016年在某銀行的應(yīng)用案例為例:該銀行已完成數(shù)據(jù)倉庫建設(shè),但眾多數(shù)據(jù)質(zhì)量問題嚴(yán)重影響了數(shù)據(jù)應(yīng)用的效果,以不同的數(shù)據(jù)存儲(chǔ)方式,以更高的要求去進(jìn)行數(shù)據(jù)的統(tǒng)一管理。通過組織、制度、流程三個(gè)方面的實(shí)施,以元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量平臺(tái)為支撐,實(shí)現(xiàn)了數(shù)據(jù)管控在50多個(gè)分支,60個(gè)局,1000余處的全面推廣,實(shí)現(xiàn)了全行的覆蓋;管理了120個(gè)系統(tǒng)和數(shù)據(jù)倉庫,顯著提升了新系統(tǒng)的快速接入能力;通過14個(gè)數(shù)據(jù)規(guī)范和流程明確了數(shù)據(jù)管控的分工;數(shù)據(jù)考核機(jī)制的實(shí)施,使其在數(shù)據(jù)質(zhì)量評(píng)比中名列前茅。

4結(jié)語

本文介紹了大數(shù)據(jù)下數(shù)據(jù)分析方法及實(shí)現(xiàn)技術(shù)的大體設(shè)計(jì)和思路,從需求分析、總體架構(gòu)和數(shù)據(jù)處理以及數(shù)據(jù)分析這幾個(gè)方面來介紹。文章在最后介紹出了這種平臺(tái)的應(yīng)用效果。筆者相信這些思路和技術(shù)能夠在業(yè)務(wù)中能得到很好的應(yīng)用。

作者:藍(lán)科 李婧 單位:1.中國科學(xué)院成都計(jì)算機(jī)應(yīng)用研究所 2.中國科學(xué)院成都文獻(xiàn)情報(bào)中心

參考文獻(xiàn)

[1]孫明,李素蕊.高性能計(jì)算機(jī)的海量數(shù)據(jù)處理平臺(tái)實(shí)現(xiàn)與評(píng)測(cè)[J].電子技術(shù)與軟件工程,2015(04).

[2]李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015(01).