云計算技術(shù)在計算機數(shù)據(jù)處理的應(yīng)用

時間:2022-11-30 09:36:53

導(dǎo)語:云計算技術(shù)在計算機數(shù)據(jù)處理的應(yīng)用一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

云計算技術(shù)在計算機數(shù)據(jù)處理的應(yīng)用

摘要:大數(shù)據(jù)及云計算信息技術(shù)的不斷發(fā)展,使得不同行業(yè)都開始借助于云服務(wù)器、后臺數(shù)據(jù)庫,進行網(wǎng)絡(luò)海量數(shù)據(jù)資源的虛擬化處理、分布式計算、并行計算處理,以實現(xiàn)對多源數(shù)據(jù)的高效搜集、統(tǒng)計處理與存儲。該文從云計算的Hadoop架構(gòu)、SOA服務(wù)體系、數(shù)據(jù)挖掘、分布式計算和HDFS存儲等技術(shù)著手,探討將多種云計算技術(shù),應(yīng)用到海量數(shù)據(jù)信息處理中的實施策略,來為網(wǎng)絡(luò)大數(shù)據(jù)服務(wù)系統(tǒng)的正常運轉(zhuǎn)提供保障。

關(guān)鍵詞:云計算技術(shù);計算機;數(shù)據(jù)處理;應(yīng)用

移動互聯(lián)時代下的數(shù)據(jù)處理,面臨著數(shù)據(jù)信息的海量化、實時化、低質(zhì)化,如何對多種網(wǎng)絡(luò)數(shù)據(jù)資源進行快速篩選、及時處理與分類存儲,成為各企業(yè)網(wǎng)絡(luò)數(shù)據(jù)信息傳輸、業(yè)務(wù)處理的主要困境。因而引入大數(shù)據(jù)及云計算技術(shù),依托云服務(wù)器、數(shù)據(jù)中心交換機、后臺數(shù)據(jù)庫等硬件設(shè)備,對廣域網(wǎng)或局域網(wǎng)內(nèi)的數(shù)據(jù)資源,進行采集、處理、分析與存儲,將數(shù)據(jù)處理結(jié)果發(fā)送至客戶終端設(shè)備進行顯示,實現(xiàn)對計算機數(shù)據(jù)的實時掌控與應(yīng)用。

1云計算技術(shù)的主要內(nèi)容及其與計算機數(shù)據(jù)處理的關(guān)聯(lián)性

1.1大數(shù)據(jù)及云計算技術(shù)的內(nèi)容概述

“云計算”是美國國家標(biāo)準(zhǔn)與技術(shù)研究院提出的概念,其作為一種分布式計算技術(shù),主要根據(jù)不同客戶的數(shù)據(jù)資源處理需求,通過網(wǎng)絡(luò)“云”將巨大的數(shù)據(jù)計算處理任務(wù),分解為一個個小的數(shù)據(jù)計算任務(wù),在多個后臺服務(wù)器上進行數(shù)據(jù)處理、分析的工作執(zhí)行。特別隨著虛擬化技術(shù)、并行計算技術(shù)的快速發(fā)展,網(wǎng)絡(luò)云計算平臺也開始將多種軟硬件虛擬化,包括網(wǎng)絡(luò)通信接口、服務(wù)器、存儲模塊等的虛擬化。之后利用虛擬化計算機,進行虛擬系統(tǒng)多個主節(jié)點、從節(jié)點的任務(wù)分配,來完成數(shù)據(jù)資源的配置、處理與存儲工作。因而現(xiàn)階段云計算技術(shù)基礎(chǔ)架構(gòu),通常由SOA服務(wù)體系、物理資源層、資源虛擬化層、用戶與映像管理層等層級組成,具體如圖1所示。圖1云計算技術(shù)基礎(chǔ)架構(gòu)1)SOA服務(wù)體系層。SOA服務(wù)架構(gòu)主要為不同應(yīng)用程序的功能服務(wù),提供相應(yīng)的網(wǎng)絡(luò)通信協(xié)議、服務(wù)接口,通常包含服務(wù)接口、服務(wù)注冊、服務(wù)查找、服務(wù)訪問、服務(wù)工作流等組件。根據(jù)網(wǎng)絡(luò)應(yīng)用組件的粗粒度、調(diào)用需求,對多個分布式的服務(wù)模塊進行封裝,再通過相應(yīng)面向?qū)ο蟮亩x接口,提供客戶需要的Web服務(wù)。2)映像管理層。映像管理層是對不同客戶權(quán)限請求、虛擬資源管理的層級,包含用戶管理、映像管理、資源管理等安全管理等內(nèi)置組件。其中用戶管理負(fù)責(zé)對用戶訪問權(quán)限、數(shù)據(jù)處理請求等進行管理,映像管理層則用于任務(wù)映像建立、映像排布與映像庫管理,控制后臺服務(wù)器端、客戶終端之間的映像周期。而虛擬資源管理,主要是對虛擬計算機負(fù)載狀況的監(jiān)測、統(tǒng)計,以保障數(shù)據(jù)資源處理過程中的虛擬機負(fù)載均衡。3)資源虛擬化層。資源虛擬化層是在物理資源層的基礎(chǔ)上,依托網(wǎng)絡(luò)計算機、存儲器和數(shù)據(jù)庫等硬件,構(gòu)建起存儲資源池、計算資源池、數(shù)據(jù)資源池等虛擬模塊,為后臺服務(wù)器中硬件資源的虛擬化提供支持。而硬件資源虛擬化層,在收到客戶端數(shù)據(jù)處理的任務(wù)請求后,會向其分配相對應(yīng)的數(shù)據(jù)在云計算基礎(chǔ)架構(gòu)中間的任務(wù)管理層,會在收到用戶相應(yīng)的任務(wù)請求后,將與之匹配的虛擬資源。

1.2云計算技術(shù)與計算機數(shù)據(jù)處理的關(guān)聯(lián)性

網(wǎng)絡(luò)大數(shù)據(jù)信息傳輸環(huán)境下,不同企業(yè)局域網(wǎng)內(nèi)的海量計算機數(shù)據(jù)處理,通常具有數(shù)據(jù)資源海量化、多元化與低質(zhì)化的特征,且各種數(shù)據(jù)之間存在著緊密的關(guān)聯(lián)性。因而如何對不同網(wǎng)絡(luò)平臺的計算機數(shù)據(jù)、業(yè)務(wù)服務(wù)等,進行更為實時高效的采集、分類、預(yù)處理、處理分析與存儲,成為計算機數(shù)據(jù)處理系統(tǒng)面臨的主要難題。而云計算作為一種分布式計算、數(shù)據(jù)分類管理技術(shù),其通??梢越柚谠朴嬎愎芾砥脚_、Hadoop分布式架構(gòu)、后臺服務(wù)器等軟硬件,在計算機任務(wù)請求訪問控制、數(shù)據(jù)資源共享,以及數(shù)據(jù)信息搜集、分析、處理與存儲過程中,負(fù)責(zé)多種虛擬化資源的配置、數(shù)據(jù)任務(wù)分配、信息處理工作。通常云計算數(shù)據(jù)信息處理平臺,包括平臺即服務(wù)、軟件即服務(wù)、基礎(chǔ)架構(gòu)即服務(wù)等服務(wù)類型,其中基礎(chǔ)架構(gòu)層為云計算平臺的最底層,包含大量的云服務(wù)器、存儲器、后臺數(shù)據(jù)庫等硬件。而Hadoop分布式數(shù)據(jù)處理架構(gòu),存在于平臺即服務(wù)層級,主要負(fù)責(zé)明細數(shù)據(jù)的匯總(Collect)、(Map)、歸約(Reduce),對某一類型某一數(shù)據(jù)進行規(guī)則映射、歸約服務(wù),并動態(tài)分配虛擬主機主節(jié)點、從節(jié)點的處理任務(wù)。最后,軟件即服務(wù)層級,則為面向軟件開發(fā)的服務(wù)類型,通過不同主節(jié)點中虛擬化運算模塊的分配,對相關(guān)的計算機數(shù)據(jù)處理任務(wù),做出按需匹配。來為客戶終端的Web遠程訪問、數(shù)據(jù)資源處理與控制管理的工作提供支持。

2計算機數(shù)據(jù)處理中的云計算關(guān)鍵技術(shù)

2.1數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)是從大量網(wǎng)絡(luò)數(shù)據(jù)資源中,快速找到自身需要的有效數(shù)據(jù)信息的技術(shù),這一技術(shù)是對網(wǎng)絡(luò)原有數(shù)據(jù)資源的深度加工與開發(fā)。當(dāng)下對于局域網(wǎng)中計算機數(shù)據(jù)信息處理,通常圍繞海量化、復(fù)雜程度高、關(guān)聯(lián)性差的數(shù)據(jù)資源,對其中存在的有價值、關(guān)聯(lián)性數(shù)據(jù)內(nèi)容進行挖掘,包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)挖掘等執(zhí)行流程,通過數(shù)據(jù)挖掘技術(shù)強大的運算、篩選、整合能力,才能從龐大的數(shù)據(jù)庫中尋找到有用數(shù)據(jù)資源,將其提取至相應(yīng)的數(shù)據(jù)倉庫庫來完成存儲管理。這里數(shù)據(jù)挖掘的預(yù)處理技術(shù),主要采取均值法、平滑法和預(yù)測法等方式,對網(wǎng)絡(luò)中錯誤率、冗余度、重復(fù)率高的數(shù)據(jù)信息,進行空值、噪聲等的主動過濾處理。如采用均值法的數(shù)據(jù)挖掘預(yù)處理技術(shù),其計算公式為Ci=(i-1)∑(i-k)Cj|K,是對數(shù)據(jù)所有已知屬性的均值作出處理,然后按照既定規(guī)律進行數(shù)據(jù)排布,,整理出的數(shù)據(jù)處理結(jié)果最接近于真實情況。

2.2分布式計算技術(shù)

分布式計算包括Agent技術(shù)、Webservice技術(shù)和中間件技術(shù)等,主要將步驟復(fù)雜的數(shù)據(jù)處理問題,分解為若干個并行處理應(yīng)用服務(wù),在計算機虛擬化硬件資源中,完成多種數(shù)據(jù)資源處理任務(wù)的執(zhí)行工作。這一虛擬化系統(tǒng)的聯(lián)合信息處理過程中,通常存在多個節(jié)點,不同節(jié)點負(fù)責(zé)不同分布式任務(wù)分配、資源調(diào)度活動,可以將單個任務(wù)的數(shù)據(jù)處理分配給多個虛擬機,對于數(shù)據(jù)批量處理的效率較高,往往被用于多線程的數(shù)據(jù)信息處理執(zhí)行中。

2.3HDFS存儲技術(shù)

HDFS云計算數(shù)據(jù)存儲文件系統(tǒng),是以分布式形式對數(shù)據(jù)進行存儲,該系統(tǒng)囊括多種數(shù)據(jù)管理節(jié)點、存儲節(jié)點。其中HDFS框架的中心服務(wù)器為Namenode,在客戶端的數(shù)據(jù)文件訪問過程中,主要通過Namenode管理系統(tǒng)對數(shù)據(jù)信息做出訪問控制。而且HDFS云計算存儲系統(tǒng)底層,會自動分割已創(chuàng)建的目錄文件,生成便于存儲的Block數(shù)據(jù)文件,來完成對不同數(shù)據(jù)資源的處理與存儲。

3云計算技術(shù)在計算機數(shù)據(jù)處理中的應(yīng)用流程研究

3.1數(shù)據(jù)采集

基于云計算技術(shù)的海量數(shù)據(jù)處理系統(tǒng),通常包含數(shù)據(jù)采集、數(shù)據(jù)判比、數(shù)據(jù)讀取、數(shù)據(jù)分析、信息互通等模塊,具體組成架構(gòu)如圖2所示。其中數(shù)據(jù)信息采集模塊,主要用于局域網(wǎng)內(nèi)海量的計算機數(shù)據(jù)信息、文檔信息采集。當(dāng)前在不同企業(yè)數(shù)據(jù)資源采集方面,通常涉及財務(wù)數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、經(jīng)營數(shù)據(jù)、商貿(mào)數(shù)據(jù)、銷售數(shù)據(jù)等,對于大量臨時文件信息、文檔信息或日志信息的采集,要保證信息來源的準(zhǔn)確性。

3.2數(shù)據(jù)處理

在完成數(shù)據(jù)信息采集后,對網(wǎng)絡(luò)計算機一周內(nèi)存在的數(shù)據(jù)資源進行處理,設(shè)置時間系數(shù)為Q、負(fù)荷系數(shù)為W、緩存系數(shù)為E。以企業(yè)財務(wù)數(shù)據(jù)信息的搜集與處理為例,當(dāng)海量數(shù)據(jù)資源上傳至云服務(wù)平臺后,其在虛擬化資源池中的處理時長,分別設(shè)定為一、二、三的時間等級,依次對應(yīng)時間系數(shù)Q的A1、A2和A3預(yù)設(shè)值。而虛擬化硬件設(shè)施在不同工作時長下,分別對應(yīng)的負(fù)載系數(shù)W,依次為B1、B2和B3;云計算平臺的數(shù)據(jù)資源緩存量,也分為高量級、中量級和低量級,分別對應(yīng)著緩存系數(shù)E的C1、C2和C3預(yù)設(shè)值。之后根據(jù)不同等級,依次設(shè)置不同數(shù)據(jù)處理過程中,虛擬化資源池使用程度的權(quán)重,分配預(yù)設(shè)值q、w和e,且q﹤w﹤e。則利用云計算服務(wù)平臺的數(shù)據(jù)處理公式為:R=Q·q+W·w+E·e再將以上數(shù)據(jù)處理后的結(jié)果,傳輸至數(shù)據(jù)判比模塊。判定云計算數(shù)據(jù)處理的系數(shù)R,與預(yù)設(shè)值r之間比較情況。在滿足R≧r情況下,生成云計算任務(wù)處理的過度使用信號,否則生成正常使用信號,并將最終信號傳輸至數(shù)據(jù)分析模塊。

3.3虛擬化資源任務(wù)調(diào)度

整個云計算任務(wù)調(diào)度的流程,需要將m個任務(wù)Task,調(diào)度到n個Resources進行任務(wù)執(zhí)行。由于云計算數(shù)據(jù)處理的動態(tài)異構(gòu)性,在NP-hard目標(biāo)函數(shù)下的虛擬化資源任務(wù)調(diào)度。只能得到約束條件內(nèi)的最優(yōu)解。設(shè)置任務(wù)執(zhí)行時間為TET(TaskExecutionTime),則第i個任務(wù)在第j個資源中的執(zhí)行時間為:ETC(i,j)=starttime(j)+TET(i,j)。所有數(shù)據(jù)處理任務(wù)在虛擬化資源集合Resources中的完成總時間為:T=Min{C1,C2,C3...Ci}。

3.4數(shù)據(jù)分析

當(dāng)控制器接收到數(shù)據(jù)分析模塊的傳輸信號后,控制器與指示燈之間形成通信,控制指示燈開始閃爍。從控制讀取模塊中,提取出一周內(nèi)數(shù)據(jù)信息處理,存在的云服務(wù)器、存儲器、后臺數(shù)據(jù)庫等硬件占用率,依次標(biāo)定為Ti、Yi和Ui。最后,將不同硬件占用率的平均變化量值,與虛擬化資源分配的預(yù)設(shè)值t、y和u進行比較,得出數(shù)據(jù)處理過程中,非??陀^準(zhǔn)確的云計算平臺使用程度結(jié)果。

參考文獻:

[1]陳棟棟.云計算技術(shù)在計算機數(shù)據(jù)處理中的應(yīng)用與發(fā)展對策探究[J].現(xiàn)代信息科技,,3(18):-.

[2]楊洋.云計算技術(shù)在計算機數(shù)據(jù)處理中的應(yīng)用[J].數(shù)字通信世界,():.

[3]崔瑤.云計算技術(shù)在計算機數(shù)據(jù)處理中的應(yīng)用——評《云計算:概念、技術(shù)與架構(gòu)》[J].中國科技論文,,14(7):2.

[4]楊秋紅.云計算在計算機數(shù)據(jù)處理中的有效性研究[J].信息與電腦(理論版),0,(24):1-157.

[5]鄭洋.云計算技術(shù)在計算機網(wǎng)絡(luò)安全存儲中的應(yīng)用[J].無線互聯(lián)科技,,16():24-25.

作者:廖宇翔 單位:山西萬合佳宜科技有限公司