海量數(shù)據(jù)范文

時間:2023-03-15 00:18:36

導(dǎo)語:如何才能寫好一篇海量數(shù)據(jù),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

海量數(shù)據(jù)

篇1

關(guān)鍵詞:數(shù)據(jù);處理;存儲

中圖分類號:TP311.52 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2012) 16-0000-02

1 引言

在企業(yè)競爭日益激烈的今天,第一時間了解公司線上業(yè)務(wù)運(yùn)行情況并及時進(jìn)行調(diào)整直接決定了項(xiàng)目能否第一時間占據(jù)市場高地。對業(yè)務(wù)數(shù)據(jù)的處理涉及到收集,存儲,加工三個關(guān)鍵步驟,而根據(jù)不同的業(yè)務(wù)類型,對數(shù)據(jù)的一致性,準(zhǔn)確性,實(shí)時性都有不同的要求。能否制定出適合業(yè)務(wù)類型的數(shù)據(jù)處理解決方案將決定數(shù)據(jù)處理系統(tǒng)的成敗,從而影響了項(xiàng)目的命運(yùn)。本文將從介紹數(shù)據(jù)收集開始,結(jié)合不同的業(yè)務(wù)類型提出相應(yīng)的解決方案,并權(quán)衡各種方案的利弊。

2 數(shù)據(jù)收集

本文的討論重點(diǎn)是關(guān)系型數(shù)據(jù)庫解決方案及NoSQL解決方案的比較,但在此之前對數(shù)據(jù)收集進(jìn)行簡要介紹對于理解后續(xù)的模型是有必要的。由于企業(yè)的業(yè)務(wù)往往分散在各地的服務(wù)器上,要對業(yè)務(wù)數(shù)據(jù)進(jìn)行收集可采取兩種方案,服務(wù)端主動發(fā)送,服務(wù)端記錄日志并由數(shù)據(jù)收集系統(tǒng)的客戶端進(jìn)行收集并發(fā)送。為減少業(yè)務(wù)之間的耦合,我們將采取第二種方案,即業(yè)務(wù)相關(guān)服務(wù)記錄特定格式日志,并由客戶端進(jìn)行收集,在業(yè)務(wù)相關(guān)服務(wù)中僅需添加根據(jù)特定格式寫日志接口。

3 數(shù)據(jù)存儲

對于海量數(shù)據(jù)的處理,數(shù)據(jù)存儲在后續(xù)應(yīng)用及維護(hù)中占據(jù)了核心地位。設(shè)計(jì)良好的存儲模型與設(shè)計(jì)不合理的模型在對資源的消耗上有著天壤之別,而一個針對具體問題設(shè)計(jì)合理的方案能夠在工作中事半功倍。

3.1 關(guān)系型數(shù)據(jù)庫模型

當(dāng)業(yè)務(wù)規(guī)模相對較小并且業(yè)務(wù)種類單一時(比如一些剛起步的游戲公司)其主要需關(guān)注的數(shù)據(jù)是一些游戲的在線、登入、登出、付費(fèi)人數(shù)等數(shù)據(jù),在下文中將稱其為關(guān)鍵運(yùn)營數(shù)據(jù)。這些數(shù)據(jù)表現(xiàn)了一個項(xiàng)目的生命特征(當(dāng)這些特征表現(xiàn)很低靡時,如果不是服務(wù)器出問題了,公司管理者就應(yīng)該為項(xiàng)目的前途擔(dān)心了)。對于這些數(shù)據(jù)要求有極高的一致性、準(zhǔn)確性以及實(shí)時性。當(dāng)然最好能記錄明細(xì)(明細(xì)往往由相關(guān)的提供業(yè)務(wù)支持的系統(tǒng)進(jìn)行維護(hù))。對于這種類型的數(shù)據(jù),需要為每個業(yè)務(wù)邏輯制定一個標(biāo)識,當(dāng)收集到該數(shù)據(jù)時,(數(shù)據(jù)處理)服務(wù)端根據(jù)該標(biāo)識對數(shù)據(jù)進(jìn)行區(qū)分,從而存儲于數(shù)據(jù)庫中。對這類數(shù)據(jù)須保證實(shí)時性,但不需要保持時序關(guān)系。

3.2 NOSQL思想

“NoSQL這一術(shù)語常用于描述網(wǎng)頁開發(fā)者對非關(guān)系型數(shù)據(jù)庫與日俱增的使用”。[3]

隨著公司業(yè)務(wù)種類的多樣化,以及業(yè)務(wù)的深入,越來越多的項(xiàng)目浮出水面,尤其是對于無線項(xiàng)目,由于這類項(xiàng)目往往由用戶下載客戶端后客戶端直接提供服務(wù),限制于發(fā)行商對產(chǎn)品的限制,不便因數(shù)據(jù)收集的需求對產(chǎn)品進(jìn)行頻繁修改。而業(yè)務(wù)的深入也必定帶來更多更細(xì)致的數(shù)據(jù)需求。在這樣的背景下,類似于關(guān)鍵運(yùn)營數(shù)據(jù)那樣為每個業(yè)務(wù)邏輯制定標(biāo)識的方法維護(hù)性將變得很低(試想對某個游戲的所有道具、所有任務(wù)、所有NPC或是一個行為產(chǎn)生的結(jié)果進(jìn)行數(shù)據(jù)收集,將需要為所有的這些對象制定標(biāo)識,系統(tǒng)的開發(fā)者以及維護(hù)者將不堪重負(fù))。此時地?cái)?shù)據(jù)將成幾何級數(shù)倍的速度增長,正如[1]中所說,“對于這些數(shù)據(jù)的讀寫操作大多基于主鍵,而并不需要基于RDBMS的復(fù)雜功能,而為了維護(hù)這些過量的功能企業(yè)不得不投入大量的硬件和人力資源,使基于RDBMS的解決方案變得很低效?!?,“盡管在RDBMS上近幾年取得了許多進(jìn)步,但要擴(kuò)展一個數(shù)據(jù)庫仍然不是一件輕松的工作。”所以除了本來就應(yīng)考慮的一致性準(zhǔn)確性等問題外,存儲模型的延伸性也應(yīng)該進(jìn)行考量。

如[2]中提到的Brewer的CAP理論中陳述的,“在任何一個系統(tǒng)(常為分布式系統(tǒng))中,一致性,可用性,以及分區(qū)容忍性只能三選其二”,對于CAP三者的解釋如下,Consistency(一致性):對所有數(shù)據(jù)庫的查詢操作都將獲取同樣的結(jié)果,即使在并發(fā)更新的情況下。Availability(可用性):所有的數(shù)據(jù)庫客戶端總能存取數(shù)據(jù)。Partition Tolerance(分區(qū)容忍性):數(shù)據(jù)庫能被分割開到多臺機(jī)器上,即使發(fā)生網(wǎng)絡(luò)中斷也能繼續(xù)提供服務(wù)。在現(xiàn)有的需求下,較好的實(shí)現(xiàn)能夠根據(jù)配置在這三者間進(jìn)行調(diào)解,如Cassandra[2]。

本文討論的存儲模型的存儲策略借鑒了Dynamo,而數(shù)據(jù)結(jié)構(gòu)類似于Google的Big-table,目前開源社區(qū)對該類存儲模型較好的實(shí)現(xiàn)可以參考Cassandra。同時這類系統(tǒng)一般用于公司內(nèi)部運(yùn)營支持,暫不考慮安全性相關(guān)問題。

3.3 NOSQL模型

在新項(xiàng)目上線之前,可以根據(jù)策劃案對可能需要設(shè)計(jì)的數(shù)據(jù)需求進(jìn)行統(tǒng)籌,并制定需求,在與數(shù)據(jù)處理系統(tǒng)開發(fā)人員,產(chǎn)品開發(fā)人員溝通后,最終修改需求并不再進(jìn)行更改。在產(chǎn)品開發(fā)之前,為這些需求制定標(biāo)識字串,這些字串往往是自說明的。在一切都準(zhǔn)備好之后,在產(chǎn)品的業(yè)務(wù)代碼中加入相應(yīng)的數(shù)據(jù)收集代碼。

當(dāng)用戶在產(chǎn)品中產(chǎn)生一個動作時,與該行為相對應(yīng)的結(jié)果將通過數(shù)據(jù)收集代碼寫到磁盤中,數(shù)據(jù)收集客戶端將分析磁盤上的文件,將對應(yīng)的字串發(fā)送至服務(wù)端。服務(wù)端可以通過在框架上使用共享庫的方式,加在不同模塊以針對不同的數(shù)據(jù)類型。比如可以專門有一個共享庫用來處理放入NoSQL存儲的數(shù)據(jù)。根據(jù)Big-table中提出的數(shù)據(jù)模型思想,可以通過主鍵定位到具體的數(shù)據(jù),故存放之前需要對整個字串進(jìn)行拆解,根據(jù)事先制定的數(shù)據(jù)模型來組成不同的數(shù)據(jù)包并寫入存儲。

由于到達(dá)數(shù)據(jù)處理服務(wù)端的字串是自說明的,其中包含了用來定位一個數(shù)據(jù)所有必要的信息,所以若在最初制定的數(shù)據(jù)需求是全面的,游戲中所有用戶相關(guān)行為產(chǎn)生的數(shù)值信息都可以使用相同的格式寫至磁盤,很大程度上節(jié)省了產(chǎn)品開發(fā)人員以及,數(shù)據(jù)處理系統(tǒng)開發(fā)及維護(hù)人員以及在雙方溝通中消耗的溝通成本。

基于Dynamo思想的分布式存儲采用了P2P結(jié)構(gòu),使用該節(jié)點(diǎn)的好處在于所有的節(jié)點(diǎn)都是對等的,即使其中一個出現(xiàn)問題,如斷電、網(wǎng)絡(luò)中斷等,只要采用合理的備份策略,整個集群是可用的。另外采用這樣的方法便于維護(hù)人員向集群中添加或減少機(jī)器,因?yàn)樗泄?jié)點(diǎn)是對等的。

由此可見,妥善使用NoSQL并設(shè)計(jì)良好的話,可以極大地降低開發(fā)及維護(hù)人員的人力成本。

4 總結(jié)

無論是關(guān)系型數(shù)據(jù)庫還是NoSQL都不可能成為最終的解決方案,正如多年前被的認(rèn)為關(guān)系型數(shù)據(jù)庫可以成為終極的解決方案的思想一樣,NoSQL也不可能坐上這一寶座。

所幸的是,現(xiàn)在的工程師們在經(jīng)歷了關(guān)系型數(shù)據(jù)庫時代后對這一點(diǎn)已經(jīng)有了深刻的認(rèn)識,并以此為動力開發(fā)出了多樣化的NoSQL產(chǎn)品,每一款都解決了某些特定的問題。對于即將使用NoSQL思想設(shè)計(jì)自己系統(tǒng)的工程師,應(yīng)當(dāng)仔細(xì)分析自己的需求,使用最適合自己的NoSQL產(chǎn)品,或者對現(xiàn)有的NoSQL產(chǎn)品進(jìn)行定制(很多產(chǎn)品如Cassandra都提供了可自定義的接口)。甚至可以根據(jù)需求設(shè)計(jì)并開發(fā)自己的數(shù)據(jù)庫系統(tǒng)。

在思考解決方案時,也務(wù)必需要考慮是否在該項(xiàng)目中是否真的有必要使用NoSQL產(chǎn)品,因?yàn)橥鶎σ患蚁鄬Τ墒斓墓荆ㄓ凶约旱臄?shù)據(jù)庫管理員)在使用關(guān)系型數(shù)據(jù)庫進(jìn)行開發(fā)時的效率是最高風(fēng)險最低的。

參考文獻(xiàn):

[1]Dynamo:Amazon’s Highly Available Key-value Store

[2]Oreilly Cassandra The Definitive Guide

篇2

關(guān)鍵詞:RFID;海量數(shù)據(jù);數(shù)據(jù)挖掘

中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2010)19-5359-02

Research on Mass Data Mining for RFID

LIN Zhong-da YAN Xin-zhe

(College of Information Engineering, Nanchang University, Nanchang 330031, China)

Abstract: The technology of RFID has been applied in many kind of domain since 1990s.In recent years,the application scope of RFID has expanded rapidly because of its convenient and long service life,the statement of "Internet of Things" made the development of RFID more fast,RFID has become one of the most important technology in the 20th century.Facing the mass data produced by RFID,the traditional way of data mining cannot satisfy the need of information acquisition.This article introduces the RFID system simply,and makes some discussion to the mass data mining for RFID by analyzes the characteristic of RFID data.

Key words: RFID; mass data; data mining

RFID(Radio Frequency Identification),即無線射頻識別技術(shù),是一種新型的非接觸式自動識別技術(shù)。RFID于20世紀(jì)90年代開始興起,與其它自動識別技術(shù)相比,RFID具有信息量大、抗干擾能力強(qiáng)、保密性高、使用壽命長等優(yōu)點(diǎn),因此,近年來廣泛應(yīng)用于多種商業(yè)領(lǐng)域,尤其是物流和供應(yīng)鏈管理。

數(shù)據(jù)挖掘是一門從大量數(shù)據(jù)中提取有用信息的學(xué)科,在各種商業(yè)領(lǐng)域中有著廣泛應(yīng)用。數(shù)據(jù)挖掘通過聚類、關(guān)聯(lián)分析等多種方式從大型數(shù)據(jù)倉庫中查找并提取決策者感興趣的信息,以便決策者對未來商業(yè)活動進(jìn)行預(yù)測與計(jì)劃。自20世紀(jì)80年代以來,數(shù)據(jù)挖掘技術(shù)得到了迅猛的發(fā)展,出現(xiàn)了許多成熟的挖掘算法和數(shù)據(jù)挖掘工具。

RFID技術(shù)的發(fā)展,向傳統(tǒng)的數(shù)據(jù)挖掘提出了挑戰(zhàn)。RFID數(shù)據(jù)有著與傳統(tǒng)數(shù)據(jù)不同的特點(diǎn),因此,必須針對RFID數(shù)據(jù)設(shè)計(jì)新的數(shù)據(jù)挖掘系統(tǒng),以滿足RFID海量數(shù)據(jù)的挖掘要求。

1 RFID數(shù)據(jù)分析

1.1 RFID系統(tǒng)簡介

RFID是一種新興的自動識別技術(shù),它利用射頻信號傳遞信息,達(dá)到無接觸識別的目的。一個完整的RFID系統(tǒng)由標(biāo)簽、閱讀器和應(yīng)用軟件三部分組成:

標(biāo)簽(Tag):標(biāo)簽是一個小型芯片,它帶有全球唯一的標(biāo)識碼,附著在目標(biāo)物體上,用來標(biāo)識物體。按照有無電源,標(biāo)簽可以分為有源標(biāo)簽和無源標(biāo)簽。有源標(biāo)簽可以主動向閱讀器發(fā)送信息,但需要電源支持,并且價格更高。無源標(biāo)簽只能被動等待閱讀器讀取信息,但結(jié)構(gòu)簡單,無須電源支持,價格便宜。按照是否可寫,標(biāo)簽可以分為只讀標(biāo)簽和可讀寫標(biāo)簽。只讀標(biāo)簽內(nèi)的信息在出廠時固化,之后不能更改??勺x寫標(biāo)簽則可以在其中自由讀取和寫入信息,更加方便靈活。

閱讀器(Reader):閱讀器是一個可以發(fā)送和接收某個特定頻率信號的設(shè)備,它可以向標(biāo)簽發(fā)送射頻信號,并接收返回的信號,讀取其中的信息,解碼后將數(shù)據(jù)傳送給應(yīng)用軟件處理。如果標(biāo)簽是可讀寫的,閱讀器還可以發(fā)送信號改變標(biāo)簽內(nèi)的數(shù)據(jù)。閱讀器抗干擾能力強(qiáng),并且具有防沖撞功能,即使有數(shù)個標(biāo)簽同時出現(xiàn)在閱讀器工作范圍內(nèi),也可以分別識別出每個標(biāo)簽的信息而不會混淆。

應(yīng)用軟件:應(yīng)用軟件負(fù)責(zé)處理閱讀器返回的數(shù)據(jù),如果標(biāo)簽是可讀寫的,應(yīng)用軟件還負(fù)責(zé)向閱讀器傳送需要改寫的標(biāo)簽數(shù)據(jù)。

RFID系統(tǒng)的數(shù)據(jù)采集過程如下:閱讀器向周圍發(fā)送某一頻率的射頻信號,處于閱讀器工作范圍內(nèi)且擁有相同頻率的標(biāo)簽接收信號后,將標(biāo)簽芯片中儲存的信息發(fā)送出去,閱讀器接收信號并讀取其中的信息,解碼后將信息傳遞給應(yīng)用軟件處理。

1.2 RFID數(shù)據(jù)特點(diǎn)

作為一種新型的數(shù)據(jù)采集技術(shù),RFID在實(shí)際應(yīng)用中采集到的數(shù)據(jù)有著自身的特點(diǎn)。概括起來,有以下幾種:

海量:在商業(yè)領(lǐng)域中,貨物流動非常頻繁,每樣貨物附著的標(biāo)簽都將自己的信息傳遞給流通路徑上遇到的所有閱讀器,這樣產(chǎn)生的數(shù)據(jù)量是非常驚人的。如果采用傳統(tǒng)數(shù)據(jù)挖掘方法直接挖掘,將很難取得良好的效果。

冗余:閱讀器不間斷的向周圍發(fā)送射頻信號,而不同閱讀器的工作范圍可能發(fā)生重疊,因此,RFID數(shù)據(jù)會出現(xiàn)兩種冗余情況,時間冗余和空間冗余。時間冗余是指標(biāo)簽長期處于某一閱讀器工作范圍內(nèi)時,會多次向閱讀器發(fā)送自己的信息??臻g冗余是指標(biāo)簽處于多個閱讀器工作范圍內(nèi)時,會向每一個閱讀器都發(fā)送自己的信息。由于閱讀器的閱讀周期相對于標(biāo)簽的停留時間非常短,而一個大型貨物中轉(zhuǎn)站安放的閱讀器數(shù)量又很多,工作范圍重疊不可避免,因此數(shù)據(jù)冗余造成的影響是巨大的。

連續(xù):閱讀器的閱讀周期固定,并且相對于標(biāo)簽的停留時間非常短,因此,RFID數(shù)據(jù)將按照時間序列保持連續(xù)性。這種連續(xù)性在數(shù)據(jù)挖掘中可能有一定的利用價值。

分散:在現(xiàn)實(shí)世界中,貨物的流通范圍非常廣,中國生產(chǎn)的皮鞋可以銷往歐洲,南非出產(chǎn)的鉆石可以賣到北美,因此,RFID數(shù)據(jù)在地理上是非常分散的。如何高效的從這些分散的數(shù)據(jù)中挖掘有用的信息,是RFID數(shù)據(jù)挖掘需要面對的一個問題。

RFID數(shù)據(jù)的以上特點(diǎn),使得我們必須尋找合適的數(shù)據(jù)挖掘方式,以便更好的管理和利用RFID數(shù)據(jù),滿足RFID數(shù)據(jù)挖掘的需求。

2 RFID數(shù)據(jù)處理

RFID采集的原始數(shù)據(jù)是一個三元組(EPC,Location,Time),其中EPC是標(biāo)簽的標(biāo)識碼,Location是閱讀器讀取標(biāo)簽的地點(diǎn),Time是閱讀器讀取標(biāo)簽的時間。企業(yè)需要從RFID數(shù)據(jù)中了解的信息是產(chǎn)品流通的路徑和時間,由于原始數(shù)據(jù)的規(guī)模過于龐大,因此,在將原始數(shù)據(jù)存入數(shù)據(jù)倉庫之前,應(yīng)當(dāng)先對原始數(shù)據(jù)進(jìn)行處理,以便提高挖掘效率。對RFID數(shù)據(jù)來說,處理的步驟主要是數(shù)據(jù)清理和數(shù)據(jù)歸約。

篇3

一、海量數(shù)據(jù)挖掘關(guān)鍵技術(shù)隨時代而變化

所謂海量數(shù)據(jù)挖掘,是指應(yīng)用一定的算法,從海量的數(shù)據(jù)中發(fā)現(xiàn)有用的信息和知識。海量數(shù)據(jù)挖掘關(guān)鍵技術(shù)主要包括海量數(shù)據(jù)存儲、云計(jì)算、并行數(shù)據(jù)挖掘技術(shù)、面向數(shù)據(jù)挖掘的隱私保護(hù)技術(shù)和數(shù)據(jù)挖掘集成技術(shù)。

1.海量數(shù)據(jù)存儲

海量存儲系統(tǒng)的關(guān)鍵技術(shù)包括并行存儲體系架構(gòu)、高性能對象存儲技術(shù)、并行I/O訪問技術(shù)、海量存儲系統(tǒng)高可用技術(shù)、嵌入式64位存儲操作系統(tǒng)、數(shù)據(jù)保護(hù)與安全體系、綠色存儲等。

海量數(shù)據(jù)存儲系統(tǒng)為云計(jì)算、物聯(lián)網(wǎng)等新一代高新技術(shù)產(chǎn)業(yè)提供核心的存儲基礎(chǔ)設(shè)施;為我國的一系列重大工程如平安工程等起到了核心支撐和保障作用;海量存儲系統(tǒng)已經(jīng)使用到石油、氣象、金融、電信等國家重要行業(yè)與部門。發(fā)展具有自主知識產(chǎn)權(quán)、達(dá)到國際先進(jìn)水平的海量數(shù)據(jù)存儲系統(tǒng)不僅能夠填補(bǔ)國內(nèi)在高端數(shù)據(jù)存儲系統(tǒng)領(lǐng)域的空白,而且可以滿足國內(nèi)許多重大行業(yè)快速增長的海量數(shù)據(jù)存儲需要,并創(chuàng)造巨大的經(jīng)濟(jì)效益。

2.云計(jì)算

目前云計(jì)算的相關(guān)應(yīng)用主要有云物聯(lián)、云安全、云存儲。云存儲是在云計(jì)算(cloud computing)概念上延伸和發(fā)展出來的新概念,是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng)。

當(dāng)云計(jì)算系統(tǒng)運(yùn)算和處理的核心是大量數(shù)據(jù)的存儲和管理時,云計(jì)算系統(tǒng)中就需要配置大量的存儲設(shè)備,那么云計(jì)算系統(tǒng)就轉(zhuǎn)變成為一個云存儲系統(tǒng),所以云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計(jì)算系統(tǒng)。

3.并行數(shù)據(jù)挖掘技術(shù)

高效率的數(shù)據(jù)挖掘是人們所期望的,但當(dāng)數(shù)據(jù)挖掘的對象是一個龐大的數(shù)據(jù)集或是許多廣泛分布的數(shù)據(jù)源時,效率就成為數(shù)據(jù)挖掘的瓶頸。隨著并行處理技術(shù)的快速發(fā)展,用并行處理的方法來提高數(shù)據(jù)挖掘效率的需求越來越大。

并行數(shù)據(jù)挖掘涉及到了一系列體系結(jié)構(gòu)和算法方面的技術(shù),如硬件平臺的選擇(共享內(nèi)存的或者分布式的)、并行的策略(任務(wù)并行、數(shù)據(jù)并行或者任務(wù)并行與數(shù)據(jù)并行結(jié)合)、負(fù)載平衡的策略(靜態(tài)負(fù)載平衡或者動態(tài)負(fù)載平衡)、數(shù)據(jù)劃分的方式(橫向的或者縱向的)等。處理并行數(shù)據(jù)挖掘的策略主要涉及三種算法:并行關(guān)聯(lián)規(guī)則挖掘算法、并行聚類算法和并行分類算法。

4.面向數(shù)據(jù)挖掘的隱私保護(hù)技術(shù)

數(shù)據(jù)挖掘在產(chǎn)生財(cái)富的同時也隨之出現(xiàn)了隱私泄露的問題。如何在防止隱私泄露的前提下進(jìn)行數(shù)據(jù)挖掘,是信息化時代各行業(yè)現(xiàn)實(shí)迫切的需求。

基于隱私保護(hù)的數(shù)據(jù)挖掘是指采用數(shù)據(jù)擾亂、數(shù)據(jù)重構(gòu)、密碼學(xué)等技術(shù)手段,能夠在保證足夠精度和準(zhǔn)確度的前提下,使數(shù)據(jù)挖掘者在不觸及實(shí)際隱私數(shù)據(jù)的同時,仍能進(jìn)行有效的挖掘工作。

受數(shù)據(jù)挖掘技術(shù)多樣性的影響,隱私保護(hù)的數(shù)據(jù)挖掘方法呈現(xiàn)多樣性?;陔[私保護(hù)的數(shù)據(jù)挖掘技術(shù)可從4個層面進(jìn)行分類:從數(shù)據(jù)的分布情況,可以分為原始數(shù)據(jù)集中式和分布式兩大類隱私保護(hù)技術(shù);從原始數(shù)據(jù)的隱藏情況,可以分為對原始數(shù)據(jù)進(jìn)行擾動、替換和匿名隱藏等隱私保護(hù)技術(shù);從數(shù)據(jù)挖掘技術(shù)層面,可以分為針對分類挖掘、聚類挖掘、關(guān)聯(lián)規(guī)則挖掘等隱私保護(hù)技術(shù);從隱藏內(nèi)容層面,可以分為原始數(shù)據(jù)隱藏、模式隱藏。

5.數(shù)據(jù)挖掘集成技術(shù)

數(shù)據(jù)挖掘體系框架由三部分組成:數(shù)據(jù)準(zhǔn)備體系、建模與挖掘體系、結(jié)果解釋與評價體系。其中最為核心的部分是建模與挖掘體系,它主要是根據(jù)挖掘主題和目標(biāo),通過挖掘算法和相關(guān)技術(shù)(如統(tǒng)計(jì)學(xué)、人工智能、數(shù)據(jù)庫、相關(guān)軟件技術(shù)等),對數(shù)據(jù)進(jìn)行分析,挖掘出數(shù)據(jù)之間內(nèi)在的聯(lián)系和潛在的規(guī)律。大體上,數(shù)據(jù)挖掘應(yīng)用集成可分為幾類:數(shù)據(jù)挖掘算法的集成、數(shù)據(jù)挖掘與數(shù)據(jù)庫的集成、數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的集成、數(shù)據(jù)挖掘與相關(guān)軟件技術(shù)的集成、數(shù)據(jù)挖掘與人工智能技術(shù)的集成等。

二、海量數(shù)據(jù)挖掘應(yīng)用廣泛但深度不足

2011年中國數(shù)據(jù)挖掘軟件市場規(guī)模達(dá)接近2億元,2012-2014年還將快速增長。從數(shù)據(jù)挖掘應(yīng)用行業(yè)上看,國內(nèi)大多數(shù)的用戶都來自電信、銀行、保險、稅務(wù)、政府等領(lǐng)域。應(yīng)用主題主要包含:消費(fèi)者行為分析、信用評分與風(fēng)險管理、欺詐行為偵測、購物籃分析等方面。目前,國內(nèi)數(shù)據(jù)挖掘應(yīng)用仍停留在初級階段,行業(yè)企業(yè)大規(guī)模的運(yùn)用數(shù)據(jù)挖掘技術(shù)尚需時日。

1.國內(nèi)數(shù)據(jù)挖掘應(yīng)用可分為3個層次

從數(shù)據(jù)挖掘應(yīng)用層次上看,大體可以分為三個層次:第一層次是把挖掘工具當(dāng)作單獨(dú)的工具來用,不用專門建設(shè)系統(tǒng);第二層次則是把數(shù)據(jù)挖掘模塊嵌入到系統(tǒng)中,成為部門級應(yīng)用;第三層次是企業(yè)級應(yīng)用,相當(dāng)于把挖掘系統(tǒng)作為整個企業(yè)運(yùn)營的中央處理器。目前,國內(nèi)的數(shù)據(jù)挖掘應(yīng)用的企業(yè)基本處于第一層次,偶爾某些企業(yè)用戶能夠做到第二層次。

2.國內(nèi)有代表性的數(shù)據(jù)挖掘行業(yè)應(yīng)用情況簡評

(1)通信業(yè):國內(nèi)應(yīng)用數(shù)據(jù)挖掘的企業(yè)還是以通信企業(yè)(移動、聯(lián)通、電信)為首,應(yīng)用的深度和廣度都處于領(lǐng)先地位。

(2)互聯(lián)網(wǎng)企業(yè):隨著電子商務(wù)的普及,各大商務(wù)網(wǎng)站已經(jīng)大規(guī)模使用數(shù)據(jù)挖掘技術(shù),并且迅速從中取得商業(yè)價值。例如,國內(nèi)很多網(wǎng)上商城已經(jīng)開始使用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶聚類或者商品關(guān)聯(lián)推廣。另外,搜索引擎企業(yè)使用數(shù)據(jù)挖掘技術(shù)的需求也非常迫切。

(3)政府部門:我國政府部門中使用數(shù)據(jù)挖掘技術(shù)比較領(lǐng)先的是稅務(wù)系統(tǒng)。數(shù)據(jù)挖掘在電子政務(wù)中的應(yīng)用,更多的涉及到報(bào)表填制、數(shù)據(jù)統(tǒng)計(jì)。

(4)國內(nèi)金融行業(yè):操作型數(shù)據(jù)挖掘應(yīng)用在國內(nèi)金融行業(yè)應(yīng)用廣泛,尤其是信貸評審領(lǐng)域。中小型銀行數(shù)據(jù)挖掘需求將是未來金融行業(yè)數(shù)據(jù)挖掘市場的主要增長點(diǎn)。未來5年時間里,數(shù)據(jù)挖掘應(yīng)用在金融行業(yè)仍將高速發(fā)展。

篇4

[關(guān)鍵詞]智能MCC 海上油田 海量數(shù)據(jù) 分級分層管理

中圖分類號:T456 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-914X(2015)10-0380-01

引言

海上MCC為石油天然氣的開采及平臺人員的生活提供生產(chǎn)、配電、管理保障,它的回路類型各異,回路個數(shù)及二次設(shè)備眾多,節(jié)點(diǎn)狀態(tài)及電氣、統(tǒng)計(jì)參數(shù)通過硬接線或現(xiàn)場總線的方式進(jìn)行數(shù)據(jù)傳輸。

智能MCC系統(tǒng)[1]對海上MCC所有回路節(jié)點(diǎn)及二次設(shè)備進(jìn)行電氣數(shù)據(jù)采集、統(tǒng)計(jì)數(shù)據(jù)分析、文件數(shù)據(jù)及維護(hù)信息更新,實(shí)現(xiàn)海上MCC的實(shí)時監(jiān)控、故障預(yù)警、快速定位、設(shè)備信息及全生命周期管理。該系統(tǒng)采集和存儲的相關(guān)數(shù)據(jù)量很大(對于單個海洋石油中心平臺來說,總的信息采集點(diǎn)數(shù)高達(dá)10000個左右),而實(shí)際的智能馬達(dá)保護(hù)器、多功能表等二次設(shè)備本身的通訊接口一般為現(xiàn)場總線,如DEVICENET[2],PROFIBUS,MODBUS等[3],都基于工業(yè)現(xiàn)場總線技術(shù),有一定的帶寬限制和節(jié)點(diǎn)數(shù)要求。同時,智能MCC系統(tǒng)需要進(jìn)行存儲、統(tǒng)計(jì)分析和趨勢跟蹤。如此大量的數(shù)據(jù)如全部進(jìn)行統(tǒng)一處理,容易造成信息通道阻塞。

并且由于智能MCC系統(tǒng)不僅運(yùn)行在海上油田的局域網(wǎng)中,更運(yùn)行在陸地公網(wǎng)上,而海上油田網(wǎng)絡(luò)與陸地公網(wǎng)是通過微波傳輸,受寬帶限制,網(wǎng)絡(luò)實(shí)時容量低,這對于智能MCC系統(tǒng)的海量數(shù)據(jù)管理,也提出了苛刻要求。

本文介紹一種數(shù)據(jù)分級分層的管理機(jī)制,保證智能MCC系統(tǒng)對于基礎(chǔ)海量數(shù)據(jù)的穩(wěn)定采集、傳輸、分析、調(diào)用,避免系統(tǒng)信息通道的阻塞,實(shí)現(xiàn)了海上智能MCC系統(tǒng)的穩(wěn)定、可靠運(yùn)行。

正文

一 海上智能MCC系統(tǒng)海量基礎(chǔ)數(shù)據(jù)

為滿足海上油氣生產(chǎn)設(shè)施正常生產(chǎn)和運(yùn)維需求,智能MCC系統(tǒng)應(yīng)能通過上位機(jī)或者維護(hù)終端遠(yuǎn)程調(diào)節(jié)各從站設(shè)定值、特性曲線參數(shù)等。通過智能MCC系統(tǒng)完成的數(shù)據(jù)傳遞應(yīng)包括回路電氣實(shí)時參數(shù),如電流電壓功率等;相關(guān)設(shè)備的報(bào)警與預(yù)警信息,如過電流報(bào)警等;通過智能馬達(dá)保護(hù)器完成的設(shè)備診斷信息,如缺相和堵轉(zhuǎn)等;用于實(shí)時控制的模擬量數(shù)字化傳輸,如調(diào)速設(shè)備速度(頻率)給定;以及用于控制和保護(hù)的非實(shí)時參數(shù)整定值下發(fā),如對回路框架斷路器、智能馬達(dá)保護(hù)繼電器報(bào)警值設(shè)定、死區(qū)值設(shè)定[4]等。具體如下:

(1) 通過上位機(jī)遠(yuǎn)程測量各回路、各設(shè)備的電量參數(shù)如下:

主進(jìn)線電路:三相電流、三相電壓(相電壓/線電壓)、有功功率、無功功率、有功電度、功率因數(shù);

配電電路:三相電流、三相電壓(相電壓/線電壓)

動力照明:三相電流

電動機(jī)回路:三相/一相電流、三相電壓(相電壓/線電壓)、功率因數(shù)、有功功率;

補(bǔ)償回路;三相電壓(相電壓/線電壓)、功率因數(shù)(實(shí)際值/設(shè)定值);

其他:電網(wǎng)頻率、變壓器檔位,剩余電流。

(2)通過上位機(jī)或生產(chǎn)DCS(PCS)對各從站實(shí)現(xiàn)以下控制功能:

動力中心電路:控制開關(guān)的儲能、合閘、分閘;

配電回路:控制開關(guān)的合閘、分閘;

電動機(jī)控制電路:電動機(jī)的啟動、停車等操作;

補(bǔ)償電路:能選擇自動/手動補(bǔ)償。手動方式下,遠(yuǎn)程可控制電容器、電抗器、APF的投切等;

有載調(diào)壓變壓器分接頭位置遠(yuǎn)程控制。

(3)通過上位機(jī)提供系統(tǒng)的各種信息資源,包括:

動力中心電路:控制開關(guān)的儲能、合閘、分閘;

配電回路:控制開關(guān)的合閘、分閘;

電能管理、成本分析和負(fù)荷分析等;

變壓器分接頭位置。

另外,智能MCC系統(tǒng)還需要完成與生產(chǎn)工藝直接相關(guān)的如調(diào)速裝置頻率、電動機(jī)負(fù)荷(電流、功率)等信號到DCS或生產(chǎn)控制系統(tǒng)的上傳;以及對特定的設(shè)備進(jìn)行自動控制,并滿足控制的可靠性和足夠響應(yīng)時間要求。

為了完成設(shè)備的設(shè)備預(yù)警、智能診斷和快速故障定位,智能馬達(dá)保護(hù)器本身提供的回路熱過載、缺相、相間不平衡、過電流、堵轉(zhuǎn)、起動超時、接地故障、頻繁起動、電機(jī)PTC熱保護(hù)、接地故障、欠載、相序顛倒、過電壓、欠電壓、功率、功率因素、平均電流、相間電流不平衡率、熱容量、電機(jī)溫升等[5]保護(hù)和測量的信息也需要按照實(shí)際設(shè)備情況采集并歸納到智能MCC系統(tǒng)中。

同時為實(shí)現(xiàn)對所有電氣設(shè)備的全面管理,設(shè)備本身的電子化圖紙、規(guī)格參數(shù)、設(shè)計(jì)參數(shù)、額定參數(shù)、操作記錄、維修策略、檢維修記錄、運(yùn)轉(zhuǎn)時間和啟動次數(shù)等信息也需要通過網(wǎng)絡(luò)或信息化系統(tǒng)進(jìn)行采集和管理。

二 海量數(shù)據(jù)分層分級管理機(jī)制設(shè)計(jì)

本系統(tǒng)制定如下數(shù)據(jù)分級分層管理原則:必要的實(shí)時數(shù)據(jù)和信息,稱為實(shí)時數(shù)據(jù),采用毫秒級進(jìn)行采集和管控;需要動態(tài)更新但工藝決定不會發(fā)生瞬變的數(shù)據(jù)或只用來監(jiān)視不參與控制的數(shù)據(jù),稱為類實(shí)時數(shù)據(jù),按照秒級進(jìn)行數(shù)據(jù)傳輸;平常不需要進(jìn)行實(shí)時更新但需要和現(xiàn)場設(shè)備交互的數(shù)據(jù),稱為參數(shù)管理類數(shù)據(jù),在需要時才進(jìn)行傳輸和存儲;統(tǒng)計(jì)分析類數(shù)據(jù)按照客戶實(shí)際需要可進(jìn)行調(diào)整。

通過分級分層管理可以大大提高網(wǎng)絡(luò)利用效率和關(guān)鍵數(shù)據(jù)傳輸?shù)目煽啃?,具體分類如下:

(1)實(shí)時數(shù)據(jù)

設(shè)備狀態(tài)、脫扣狀態(tài)、有功功率、無功功率、報(bào)警信息;

實(shí)時數(shù)據(jù)采樣周期為ms級別。

(2)類實(shí)時數(shù)據(jù)

三相電流、平均電流、接地電流、過載電流、平均過載電流、三相電壓、平均電壓、頻率、功率因素、電度;

脫扣數(shù)據(jù)記錄、報(bào)警數(shù)據(jù)記錄、熱容量;

類實(shí)時數(shù)據(jù)更新時間為秒級。

(3)參數(shù)管理類數(shù)據(jù)

過載報(bào)警值、接地報(bào)警值、堵轉(zhuǎn)報(bào)警值、欠載報(bào)警值、電流不平衡報(bào)警值、高/低電壓報(bào)警值、高/低電流報(bào)警值;

過載復(fù)位時間、過載脫扣時間、接地脫扣值、堵轉(zhuǎn)脫扣值、欠載脫扣值、電流不平衡脫扣值、高/低電壓報(bào)警使能、高/低電流報(bào)警使能;

參數(shù)管理類數(shù)據(jù)在需要時候才進(jìn)行傳送。

(4)統(tǒng)計(jì)分析類數(shù)據(jù)

起停次數(shù)統(tǒng)計(jì)、能耗統(tǒng)計(jì)、脫扣統(tǒng)計(jì)、報(bào)警統(tǒng)計(jì)、有功/無功統(tǒng)計(jì)。

另外通用的管理數(shù)據(jù)或通過信息系統(tǒng)下發(fā)的管理信息統(tǒng)稱管理類數(shù)據(jù),如設(shè)備規(guī)格參數(shù)、操作記錄、維修計(jì)劃、電子資料文件等,通過信息層網(wǎng)絡(luò)進(jìn)行傳輸管理,不再經(jīng)由現(xiàn)場數(shù)據(jù)總線。海量數(shù)據(jù)分層分級管理機(jī)制框圖見圖一所示。

三 海量數(shù)據(jù)分層分級管理機(jī)制應(yīng)用

(1)實(shí)時數(shù)據(jù)采集及網(wǎng)絡(luò)負(fù)荷率

本系統(tǒng)通過第三方機(jī)構(gòu)賽寶對實(shí)時數(shù)據(jù)的采集時間和網(wǎng)絡(luò)負(fù)荷率進(jìn)行測試,以馬達(dá)保護(hù)器的故障報(bào)警響應(yīng)時間為例:

報(bào)警響應(yīng)時間第一次測量結(jié)果:250ms;

報(bào)警響應(yīng)時間第一次測量結(jié)果:250ms;

報(bào)警響應(yīng)時間第一次測量結(jié)果:312ms;

報(bào)警響應(yīng)時間第一次測量結(jié)果:63ms;

報(bào)警響應(yīng)時間第一次測量結(jié)果:31ms;

報(bào)警響應(yīng)時間第一次測量結(jié)果:31ms;

報(bào)警響應(yīng)時間第一次測量結(jié)果:46ms;

報(bào)警響應(yīng)時間第一次測量結(jié)果:46ms;

報(bào)警響應(yīng)時間第一次測量結(jié)果:47ms;

報(bào)警響應(yīng)時間第一次測量結(jié)果:74ms。

智能MCC系統(tǒng)網(wǎng)絡(luò)負(fù)荷率為17.12KB/s~21.38KB/s。

(2)參數(shù)管理類數(shù)據(jù)的按用戶需求進(jìn)行交互

圖二為海上MCC回路斷路器電流整定值、散熱時間及保護(hù)類型的交互界面,這些參數(shù)是參數(shù)管理類數(shù)據(jù),按照用戶需求進(jìn)行交互。用戶可以查看或更改該設(shè)備此類型參數(shù)。

(3) 其他管理類數(shù)據(jù)的傳輸、存儲

海上油田智能MCC系統(tǒng)對于底層設(shè)備進(jìn)行了臺帳、設(shè)備檢維修管理及電子資料管理等,這些設(shè)備的臺帳、檢維修信息通過數(shù)據(jù)庫協(xié)議等進(jìn)行信息的傳輸、存儲,并且為了不影響數(shù)據(jù)庫檢索響應(yīng)速度,智能MCC系統(tǒng)電子資料管理中的文件數(shù)據(jù)通過FTP協(xié)議進(jìn)行傳輸、存儲[6]。

圖三為智能MCC系統(tǒng)軟件設(shè)備電子資料模塊的交互界面。

4 總結(jié)

海上油田智能MCC系統(tǒng)的海量數(shù)據(jù)管理機(jī)制的設(shè)計(jì),梳理了智能MCC系統(tǒng)不同類型數(shù)據(jù)的采集、傳輸、存儲機(jī)制及存儲途徑,并通過了現(xiàn)場應(yīng)用與測試。該方法能夠保證智能MCC系統(tǒng)在海上、陸地運(yùn)行時的穩(wěn)定、可靠性。

參考文獻(xiàn)

[1]魏澈,王國朝. 海上IMCC系統(tǒng)設(shè)計(jì)綜述[J]. 電子技術(shù)與軟件工程,2014(15):95-97.

[2] 佟為明,陳向陽,李風(fēng)閣,吳S.DeviceNet現(xiàn)場總線技術(shù)[J].微處理機(jī),2002(6):1-3.

[3] 劉建昌,左云,錢曉龍,陳智鋒,馮立. 現(xiàn)場總線概述[J].基礎(chǔ)自動化,2000,7(6):1-5.

[4]郭宏,于凱平. 電機(jī)控制中心綜述[J].電氣傳動,2006(3):8-10.

[5] Cleaveland Peter. Smart Motor Control Center has Built-in DeviceNet Communications, Software for Monitoring and Control[J]. I&CS Instrumentation & Control Systems,2000,73(3):58-60.

篇5

知道淘寶每天產(chǎn)生的交易數(shù)據(jù)量有多少嗎?知道電信運(yùn)營商們的業(yè)務(wù)數(shù)據(jù)量已經(jīng)達(dá)到什么數(shù)量級了嗎?知道熱盼的智能電網(wǎng)落地后會新增多少數(shù)據(jù)嗎?

數(shù)據(jù)爆炸催熟分析型數(shù)據(jù)庫

在這個數(shù)據(jù)不斷膨脹的時代,企業(yè)數(shù)據(jù)量從過去的MB到GB再到TB,增長到現(xiàn)在的PB級數(shù)據(jù)規(guī)模。過去多年來,中國企業(yè)非常重視基礎(chǔ)和應(yīng)用建設(shè),其結(jié)果是產(chǎn)生了大量的數(shù)據(jù)。如果這些數(shù)據(jù)不能體現(xiàn)價值,IT從業(yè)人員會遭受到巨大的壓力。

而大多數(shù)數(shù)據(jù)庫的性能隨著所管理的數(shù)據(jù)量的增加,性能會急劇下降,傳統(tǒng)的OLTP數(shù)據(jù)庫在處理海量數(shù)據(jù)時遭遇瓶頸,于是分析型數(shù)據(jù)庫登臺亮相。

分析型數(shù)據(jù)庫是在海量數(shù)據(jù)中心、企業(yè)級數(shù)據(jù)倉庫、企業(yè)數(shù)據(jù)云的背景下分化出來的一個細(xì)分市場,這個市場從被明確出來的那一刻起,就發(fā)展得異常迅速。

都說分析型數(shù)據(jù)庫時代來臨,那到底什么是分析型數(shù)據(jù)庫,和傳統(tǒng)的數(shù)據(jù)庫有什么區(qū)別呢?分析型數(shù)據(jù)庫廠商Greenplum業(yè)務(wù)總監(jiān)陳昌騰向記者介紹說,傳統(tǒng)數(shù)據(jù)庫側(cè)重交易處理,關(guān)注的是多用戶的同時讀寫操作,在保障即時性的前提下,處理數(shù)據(jù)的分配、讀寫等操作,存在I/O瓶頸。而分析型數(shù)據(jù)庫是以實(shí)時多維分析技術(shù)作為基礎(chǔ),對數(shù)據(jù)進(jìn)行多個角度的模擬和歸納,從而得出數(shù)據(jù)里面包含的信息和知識,當(dāng)面對海量數(shù)據(jù)時,數(shù)據(jù)庫首先要克服I/O瓶頸。

企業(yè)采用分析型數(shù)據(jù)庫技術(shù)有無數(shù)的理由。TDWI Research的高級經(jīng)理Philip Russom認(rèn)為,其中一個很重要的原因,就是數(shù)據(jù)分析的使用越來越頻繁,而其復(fù)雜度卻越來越高。一種被Russom和其他專家稱為“高級分析”的技術(shù)目前十分火熱,它描述了特別復(fù)雜的――通常是SQL驅(qū)動的查詢或者預(yù)測分析技術(shù)的使用。毫無例外,分析型數(shù)據(jù)庫專家都將MPP(Massively Parallel Processing,平臺海量并行處理服務(wù)器)作為高級分析的一個必要條件。

Russom認(rèn)為傳統(tǒng)的數(shù)據(jù)倉庫系統(tǒng)是無法完成針對海量數(shù)據(jù)的分析任務(wù)的,他引用TDWI的一份調(diào)查來說明:調(diào)查顯示有40%的受訪者對他們現(xiàn)有數(shù)據(jù)倉庫平臺的分析能力表示擔(dān)心,有51%的受訪者表示計(jì)劃在接下來的5年時間里,啟動分析型數(shù)據(jù)庫平臺。

讓用戶在幾秒內(nèi)得到查詢結(jié)果

高性能的大規(guī)模數(shù)據(jù)處理能力是DBA對數(shù)據(jù)庫夢寐以求的能力之一。從字面上不難看出,“高性能的大規(guī)模數(shù)據(jù)處理能力”,一方面是針對“大規(guī)模的數(shù)據(jù)”,另一方面就是“數(shù)據(jù)的處理”。前者需要的是數(shù)據(jù)吞吐能力,就是所謂的I/O;后者需要的是并行計(jì)算能力,即充分利用軟硬件資源最大化運(yùn)行任務(wù)及進(jìn)程,這也就是像Greenplum這樣的高性能數(shù)據(jù)倉庫引擎追求高效的兩個途徑。

Russom認(rèn)為,高級分析技術(shù)轉(zhuǎn)為主要依靠復(fù)雜或?qū)Φ鹊腟QL語句實(shí)現(xiàn),這讓傳統(tǒng)數(shù)據(jù)倉庫平臺查詢性能差的缺點(diǎn)更加突出。很多企業(yè)都認(rèn)為“查詢響應(yīng)慢”是影響他們部署數(shù)據(jù)倉庫平臺產(chǎn)品的決定性因素。

在這方面,分析型數(shù)據(jù)庫專家特別喜歡用傳統(tǒng)的數(shù)據(jù)倉庫平臺做對比,例如主流的Oracle、SQL Server或者DB2。分析型數(shù)據(jù)庫廠商紛紛宣稱自己的產(chǎn)品可以讓用戶在幾秒鐘內(nèi),甚至幾百毫秒內(nèi)就得到想要的查詢結(jié)果。人們通常關(guān)注一些類型的查詢,這些查詢也許是需要頻繁交互的,或者有非常多的用戶,反正需要使用非常復(fù)雜的查詢語句,并且需要在幾秒鐘內(nèi)就得到結(jié)果,人們無法容忍幾十分鐘甚至數(shù)個小時的等待。

“Greenplum的海量數(shù)據(jù)查詢速度可以比傳統(tǒng)的數(shù)據(jù)庫快20倍?!盙reenplum大中華區(qū)總裁周金輝說,“其實(shí)20倍是一個保守?cái)?shù)字,因?yàn)榇蠖鄶?shù)的實(shí)際測試結(jié)果都顯示,查詢速度之比都在20至50倍之間。”周金輝在IT行業(yè)從業(yè)25年以上,曾在Oracle公司工作16年,擔(dān)任亞太區(qū)副總裁。周金輝表示考慮到客戶環(huán)境的差異、應(yīng)用場景的復(fù)雜性,Greenplum認(rèn)為20倍是完全可以保障的。但他同時表示,這一結(jié)果目前僅僅是在一些既有的數(shù)據(jù)倉庫應(yīng)用案例中比較得出的。

陳昌盛向記者解釋說,之所以能做到如此,有三個原因:一是Greenplum的并行處理技術(shù),創(chuàng)造出了前所未有的高性能,初接觸的客戶會感受到完全不同的震撼;二是Greenplum的分布式架構(gòu)設(shè)計(jì),使得用戶可以無限線性擴(kuò)展所管理的數(shù)據(jù),完全消除海量數(shù)據(jù)的壓力;三是 Greenplum的開放平臺設(shè)計(jì),確保在低端的PC服務(wù)器實(shí)現(xiàn)高性能,這顯著降低了用戶的使用門檻,與市場正在形成的需求形成良性互動。

Greenplum試進(jìn)入中國大約一年的時間,已經(jīng)簽約了16家客戶,平均每個月都能夠簽約一家多,這樣的簽約速度在企業(yè)級軟件市場是非??斓?因?yàn)榭蛻魪牧私?、熟悉到做決定一般都至少需要3個月的時間。Greenplum的簽約時間短,也說明了客戶對Greenplum的信心比較足。陳昌盛補(bǔ)充說,Greenlpum所管理的數(shù)據(jù)是無限擴(kuò)充的;而且更為重要的是,目前所有的系統(tǒng)擴(kuò)容都需要停機(jī),但是Greenplum卻可以擴(kuò)容不損失任何業(yè)務(wù)時間。

工作量管理是否有必要

有意思的是,Greenplum和其他分析型數(shù)據(jù)庫廠商,都特別熱衷于把Teradata作為對比對象。與一些傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)廠商相比,Teradata的工作量管理(WLM)能力是非常出色的。

當(dāng)然,也有一些分析型數(shù)據(jù)庫廠商宣稱能夠改善工作量管理特性,例如Aster Data Systems公司,他們表示其產(chǎn)品可以與Teradata的Active Systems Management(TASM)相媲美。Vertica公司負(fù)責(zé)市場的副總裁Dave Menninger也表示,Vertica在其最新產(chǎn)品Vertica 3.5版本中,引入了加強(qiáng)的WLM功能。大部分的分析型數(shù)據(jù)庫廠商,都會主要強(qiáng)調(diào)MPP速度和并行處理能力的優(yōu)勢。

Teradata公司負(fù)責(zé)產(chǎn)品與服務(wù)市場的副總裁Randy Lea表示:“工作量管理是相當(dāng)復(fù)雜的,我們依然在持續(xù)改進(jìn)其功能,為客戶提供大量個性化的服務(wù)?!彼J(rèn)為,他們的目標(biāo)是戰(zhàn)略層次上的,而大部分的分析型數(shù)據(jù)庫平臺的實(shí)現(xiàn)只是停留在戰(zhàn)術(shù)層面上。Lea說,在戰(zhàn)術(shù)層面上,工作量管理也許并沒有那么重要,最多你可以對使用系統(tǒng)的用戶做一些限制,而對于企業(yè)級的數(shù)據(jù)倉庫,情況則要復(fù)雜得多。

“即使是非常簡單的數(shù)據(jù)需求,我依然會制定一些業(yè)務(wù)規(guī)則,并予以實(shí)現(xiàn)。例如,CEO的請求應(yīng)該具有最高優(yōu)先級。這可能是一種好的策略。”他解釋說,“我們完全可以根據(jù)時間、查詢結(jié)果、用戶或者應(yīng)用,來實(shí)現(xiàn)我們的業(yè)務(wù)規(guī)則,從而最好地實(shí)現(xiàn)數(shù)據(jù)倉庫的效用?!?/p>

“如果你遵從統(tǒng)一的平臺模型,并且需要為一部分?jǐn)?shù)據(jù)倉庫任務(wù)提供良好的實(shí)時SLA保障,那么工作量管理是很有用的?!弊稍児綯hird Nature的資深數(shù)據(jù)倉庫體系架構(gòu)專家Mark Madsen說。他認(rèn)為,現(xiàn)在需要建設(shè)數(shù)據(jù)倉庫的公司,需要在無所不包、自頂向下和松散耦合、自底向上兩種方法之間作出選擇。

篇6

關(guān)鍵詞:云計(jì)算 航空影像 數(shù)據(jù)處理 構(gòu)架

中圖分類號:P23 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2014)03(c)-0005-02

隨著攝影測量手段和信息獲取技術(shù)的發(fā)展,航空影像數(shù)據(jù)的獲取周期越來越短,航空影像數(shù)據(jù)的更新頻率越來越快。對于海量遙感數(shù)據(jù)快速處理以達(dá)到實(shí)現(xiàn)快速響應(yīng)機(jī)制,傳統(tǒng)的攝影測量數(shù)據(jù)處理平臺已經(jīng)不能滿足當(dāng)前的生產(chǎn)需求。因此,如何快速、高效地處理這些影像數(shù)據(jù),以及如何迅速的從影像數(shù)據(jù)中獲取用戶所需的基本信息(如概貌、土地的分類、土地利用情況、植被分布、水系的分布和變化,災(zāi)害區(qū)的范圍等)是一個值得研究并且急需解決的問題,也是建立遙感快速響應(yīng)機(jī)制領(lǐng)域的一個重要的應(yīng)用和發(fā)展方向。

本文將云計(jì)算模型處理的技術(shù)引入影像數(shù)據(jù)處理中,設(shè)計(jì)了基于云計(jì)算的海量影像數(shù)據(jù)的云處理模型。

1 云計(jì)算模型構(gòu)架

云計(jì)算的關(guān)鍵是如何實(shí)現(xiàn)大規(guī)模地連接到更加廣泛的服務(wù)器甚至個人計(jì)算機(jī),使這些計(jì)算機(jī)并行運(yùn)行,各自的資源結(jié)合起來形成足可比擬超級計(jì)算機(jī)的計(jì)算能力。我們可以通過個人電腦或便攜設(shè)備,經(jīng)由因特網(wǎng)連接到云中。對用戶端來說,云是一個獨(dú)立的應(yīng)用、設(shè)備或文件,云中的硬件是不可見的,如圖1所示。

它的過程是這樣的:首先,用戶的請求被發(fā)送給系統(tǒng)管理,系統(tǒng)管理找出正確的資源并調(diào)用合適的系統(tǒng)服務(wù)。這些服務(wù)從云中劃分必要的資源,加載相應(yīng)的Web應(yīng)用程序,創(chuàng)建或打開所要求的文件。Web應(yīng)用啟動后,系統(tǒng)的監(jiān)測和計(jì)量功能會跟蹤云資源的使用,確保資源分配和歸屬于合適的用戶。

2 云計(jì)算處理模型的運(yùn)行機(jī)制

基于云計(jì)算模型的影像數(shù)據(jù)處理模型是在傳統(tǒng)的影像數(shù)據(jù)處理流程的基礎(chǔ)上,突破了傳統(tǒng)的計(jì)算模式,使用了云計(jì)算強(qiáng)大的計(jì)算資源來完成整個數(shù)據(jù)處理中的大量的數(shù)字運(yùn)算。其中包括任務(wù)的分發(fā)、云端處理以及處理完數(shù)據(jù)的集中和影像的鑲嵌等操作。

2.1 云處理模型的體系結(jié)構(gòu)

圖2為基于云計(jì)算模型的影像數(shù)據(jù)處理系統(tǒng)的體系結(jié)構(gòu)。云工作站負(fù)責(zé)管理和分發(fā)任務(wù),云端處理服務(wù)器依據(jù)分發(fā)的任務(wù),從云存儲中取出影像進(jìn)行相應(yīng)的處理,通過TCP/IP通信協(xié)議與服務(wù)器建立通訊。當(dāng)對應(yīng)的云端處理服務(wù)器(可以是大型的計(jì)算機(jī)業(yè)可以使微型的個人機(jī))接收到任務(wù)時,通過調(diào)用系統(tǒng)的計(jì)算資源進(jìn)行相應(yīng)的處理服務(wù),同時通過云端系統(tǒng)之間的相互通信可以實(shí)現(xiàn)一些軟件資源的共享等。

2.2 云處理模型的工作流程

圖3為基于云計(jì)算模型的影像數(shù)據(jù)處理系統(tǒng)的一般的工作流程,主要包括任務(wù)表的創(chuàng)建與分發(fā),云端系統(tǒng)的具體的處理過程以及數(shù)據(jù)成品的集中和影像的鑲嵌。 利用云計(jì)算強(qiáng)大的計(jì)算資源來完成其中涉及到的巨大的運(yùn)算要求。

3 基于云計(jì)算的航空影像處理模型

在這個模型系統(tǒng)中,主要包括數(shù)據(jù)的預(yù)處理和專題信息的提取。在后期的制圖過程中主要包括地圖信息的符號化和綜合。

3.1 預(yù)處理

遙感圖像的預(yù)處理主要包括幾何校正和輻射校正,還包括其他的預(yù)處理手段,如圖4所示。遙感圖像成圖時,由于各種因素的影響,圖像本身的幾何形狀與其對應(yīng)的地物形狀往往是不一致的。遙感圖像的幾何變形是指圖像上各地物的幾何位置、形狀、尺寸、方位等特征與在參考系統(tǒng)中的表達(dá)要求不一致時產(chǎn)生的變形。遙感圖像的變形誤差可以分為靜態(tài)誤差和動態(tài)誤差兩大類。靜態(tài)誤差是在成像的過程中,傳感器相對于地球表面呈精致狀態(tài)時所產(chǎn)生的各種變形誤差。動態(tài)誤差主要是成像過程中由于地球的旋轉(zhuǎn)等因素所造成的圖像變形誤差。遙感圖像的幾何處理主要包括圖像的粗加工、精糾正,還包括重采樣以及共線方程的糾正的。

由于航空影像成像過程的復(fù)雜性,傳感器接收到的電磁波能量與目標(biāo)本身輻射的能量是不一致的。傳感器輸出的能量包含了太陽位置和角度條件、大氣條件、地形影響和傳感器本身的性能所引起的各種失真,這些失真不是地面目標(biāo)本身的輻射,因此,對圖像的使用和理解會造成影響,必須加以校正或消除。輻射校正就是指消除或改正遙感圖像成像過程中附加在傳感器輸出的輻射能量中的各種噪聲的過程。

在影像數(shù)據(jù)制圖中,數(shù)據(jù)的收集一般包括遙感影像數(shù)據(jù)的收集和其他非空間數(shù)據(jù)的收集,在充分收集歷史和當(dāng)前數(shù)據(jù)的基礎(chǔ)上要對于資料進(jìn)行初步的整理。數(shù)據(jù)的預(yù)處理主要包括影像數(shù)據(jù)的幾何處理和輻射校正。預(yù)處理的云處理模型已經(jīng)在之前介紹過了。

3.2 中期操作

在傳統(tǒng)的遙感影像專題信息提取中,主要包括影像數(shù)據(jù)的格式轉(zhuǎn)化,圖像的增強(qiáng)和均衡化、波段的融合、糾正等,文本資料的分類,地圖信息的分析,同時在信息的提取中有監(jiān)督法分類和非監(jiān)督法分類,以及分類后處理等操作。在基于云計(jì)算模型的遙感影像處理系統(tǒng)中,上述的操作方法不變,變化的是計(jì)算的模式。傳統(tǒng)的處理模式是串行的處理,基于云計(jì)算的遙感影像處理模式主要是利用云端系統(tǒng)強(qiáng)大的計(jì)算資源實(shí)現(xiàn)影像的實(shí)時處理。

在完成任務(wù)的分發(fā)后,相應(yīng)的云端通過直接的相互通信,能夠下載相應(yīng)的處理模塊所需的軟件和模塊,同時按照當(dāng)前服務(wù)器的計(jì)算資源狀況完成相應(yīng)的處理和任務(wù)的分發(fā)等。

3.3 后期操作

后期的專題地圖的制作中主要包括地圖信息的綜合,按照專題的信息決定地圖信息的取舍,突出重點(diǎn)的專題,省略其他無關(guān)的要素,符號化的過程主要依據(jù)可視化和視覺美學(xué)等知識進(jìn)行取舍,其中涉及到大量的計(jì)算任務(wù)仍然放到云端來完成。影像數(shù)據(jù)的處理一般包括格式轉(zhuǎn)換、圖像的增強(qiáng)、均衡化、波段的融合等,在影像數(shù)據(jù)的應(yīng)用上主要有信息的提取、分類、專題圖的制作等。

4 結(jié)論

云計(jì)算是一種顛覆性的技術(shù)具有深刻意義,不僅對互聯(lián)網(wǎng)服務(wù),而且對這個IT 業(yè)都是一次革命。將它應(yīng)用在航空影像數(shù)據(jù)處理領(lǐng)域更是一種大膽的嘗試,作為航空影像數(shù)據(jù)處理專業(yè)領(lǐng)域,如何進(jìn)行海量數(shù)據(jù)存儲與處理、系統(tǒng)的擴(kuò)展與開放等是該領(lǐng)域長期的瓶頸,云計(jì)算的出現(xiàn)給解決這些問題帶來了希望。本文詳細(xì)探討了遙感云計(jì)算的系統(tǒng)構(gòu)成和實(shí)現(xiàn)方法,并以一個具體的原型系統(tǒng)展現(xiàn)了航空影像云計(jì)算模式的用戶界面、技術(shù)手段和運(yùn)行流程。

參考文獻(xiàn)

篇7

傳統(tǒng)大數(shù)據(jù)保護(hù)方案海量難題

IT系統(tǒng)運(yùn)維的有效性將直接關(guān)系到企業(yè)能否正常運(yùn)行。數(shù)據(jù)量暴增、應(yīng)用的愈加復(fù)雜卻使大型用戶的數(shù)據(jù)中心、共享災(zāi)備中心等環(huán)境成為了大數(shù)據(jù)問題的重災(zāi)區(qū)。

首先,海量數(shù)據(jù)卷導(dǎo)致備份時間延長,企業(yè)往往被迫采用復(fù)雜的快照和腳本方法,因此恢復(fù)操作極其復(fù)雜、耗時。

其次,大多數(shù)企業(yè)在其所分配的備份時間中無法完成完全或者增量備份;而主要應(yīng)用程序的磁帶備份連續(xù)寫入方式需要更高的網(wǎng)絡(luò)和處理器能力以及更多的時間;另外,傳統(tǒng)的保護(hù)模式制約服務(wù)器虛擬化項(xiàng)目和云技術(shù)的啟動及實(shí)施;邊緣數(shù)據(jù)無法得到系統(tǒng)保護(hù);耗費(fèi)時間“堆砌”在一起的大量單點(diǎn)產(chǎn)品導(dǎo)致管理備份活動極其困難;數(shù)據(jù)恢復(fù)既緩慢又不細(xì)化,缺乏確定性;無法實(shí)現(xiàn)完全的分層存儲。

再次,傳統(tǒng)的備份方法不能全局性地解決冗余數(shù)據(jù)激增的問題,這一問題會導(dǎo)致對網(wǎng)絡(luò)、存儲和管理資源的過度消耗。這限制了企業(yè)恢復(fù)和使用受保護(hù)數(shù)據(jù)的能力,增加了數(shù)據(jù)恢復(fù)和查找所需的時間。

全新IaaS架構(gòu)創(chuàng)新TxCloud突破大數(shù)據(jù)保護(hù)容量瓶頸

所幸,愛數(shù)推出了TxCloud云柜,這款為大中型數(shù)據(jù)中心提供一體化備份容災(zāi)云計(jì)算解決方案的大機(jī)柜,將有效解決這個難題,并結(jié)合法規(guī)遵從管理理念,將IT管理目標(biāo)與企業(yè)管理目標(biāo)有效結(jié)合,提升數(shù)據(jù)的業(yè)務(wù)價值,輕松構(gòu)建私有云。然而,TxCloud云柜為何能在大數(shù)據(jù)時代立足?

云概念的興起使IaaS架構(gòu)廣為人知,而云柜便是基于IaaS的底層架構(gòu)來建設(shè),在IaaS架構(gòu)之上搭建應(yīng)用的。正是基于此,TxCloud云柜才可在大數(shù)據(jù)中乘風(fēng)破浪。

首先,IaaS的底層架構(gòu)實(shí)現(xiàn)了對底層物力資源的抽象,使其成為一個個可以被靈活生成、調(diào)度、管理的基礎(chǔ)資源單位。這樣便可以以服務(wù)化的方式向上層提供資源。

其次,TxCloud云柜的IaaS底層架構(gòu)將會做分布式存儲,使未來存儲擴(kuò)展更方便。云柜定位于大數(shù)據(jù)時代的備份容災(zāi),而誰都無法預(yù)測到大數(shù)據(jù)時代的備份容量要求,因此存儲的擴(kuò)展性對云柜的意義非凡。

再次,IaaS的服務(wù)化使得添加新應(yīng)用更方便,同樣為TxCloud云柜應(yīng)對大數(shù)據(jù)提供支持。

正是由于引入了IaaS架構(gòu),TxCloud云柜才會具有更良好的擴(kuò)展性以及更大的備份存儲容量?,F(xiàn)在TxCloud云柜最多支持18個備份容災(zāi)節(jié)點(diǎn),共可提供432TB的物理容量。但I(xiàn)aaS架構(gòu)的功能并不僅限于此,TxCloud云柜將更具可持續(xù)發(fā)展性和可持續(xù)擴(kuò)展性。

重復(fù)數(shù)據(jù)刪除技術(shù)完美嵌入

大數(shù)據(jù)保護(hù)無懼海量難題

重復(fù)數(shù)據(jù)刪除技術(shù)不再新鮮。然而,愛數(shù)一體化容災(zāi)技術(shù)體系中的源端重復(fù)數(shù)據(jù)刪除技術(shù),其重刪比最高可達(dá)99%,能夠有效控制因備份而產(chǎn)生的重復(fù)數(shù)據(jù)的快速增長。

愛數(shù)將源端重復(fù)刪除技術(shù)完美嵌入TxCloud云柜后,用戶備份的次數(shù)越多,其實(shí)際數(shù)據(jù)與邏輯數(shù)據(jù)間的比例就越小。如:用戶第一次備份10TB數(shù)據(jù),而第二次備份時只變化了其中的2TB,從用戶角度而言,兩次完全備份服務(wù)端就需保存20TB的數(shù)據(jù),但基于愛數(shù)源端重復(fù)刪除技術(shù),服務(wù)端實(shí)際只會存放12TB的數(shù)據(jù)。因此,基于云柜本身的屬性,最多可提供432TB的物理容量,再除以重刪率(約1/9),即可以使最終的邏輯容量達(dá)到3.5PB之多。

篇8

關(guān)鍵詞:海量數(shù)據(jù)存儲;分布式數(shù)據(jù)庫;MPP架構(gòu);并行處理

目前海量數(shù)據(jù)處理還是一個比較新的研究方向,大多數(shù)都是各公司或者是組織各自研究自己的處理方法,國際上沒有通用的標(biāo)準(zhǔn),研究的方式和結(jié)果也都是各有千秋。針對項(xiàng)目中帶有復(fù)雜業(yè)務(wù)邏輯的海量數(shù)據(jù)存儲,主要從容量擴(kuò)展和并行處理兩個方面考慮。前文己論述過NoSQL分布式數(shù)據(jù)庫由于其數(shù)據(jù)結(jié)構(gòu)簡單、不善于做JOIN連接等復(fù)雜操作,存在數(shù)據(jù)遷移問題,并不適用于本項(xiàng)目,所以本解決方案依舊從關(guān)系型數(shù)據(jù)庫入手。其次為了支持多樣的切分策略,本論文將實(shí)現(xiàn)range、list、consis

tent-hash模式。最后系統(tǒng)借鑒MPP并行處理架構(gòu),使得整個項(xiàng)目能部署在便宜的PC集群上,不僅能保證穩(wěn)定性,還節(jié)省項(xiàng)目成本。

物理設(shè)施包含數(shù)據(jù)庫服務(wù)器的基礎(chǔ)架構(gòu)、web服務(wù)器的選擇,以及資源分配管理服務(wù)器的選擇。這三者分別負(fù)責(zé)數(shù)據(jù)的存取、數(shù)據(jù)的分析處理以及資源工作的均衡分配,它們協(xié)同合作,共同搭建一個高效的協(xié)同的后端服務(wù)管理,使存儲系統(tǒng)均衡工作、高效運(yùn)行。

作為解決海量數(shù)據(jù)的存儲方案,首要必須考慮是存放海量數(shù)據(jù)的需求。根據(jù)前文可知,分布式數(shù)據(jù)庫的出現(xiàn)其根本原因是解決存放不下數(shù)據(jù)的問題,故而將數(shù)據(jù)依照策略存放在不同的數(shù)據(jù)庫服務(wù)器上,存放數(shù)據(jù)的策略以及數(shù)據(jù)之間的并行查詢處理是研究的重點(diǎn)。第二個問題是分布式處理方案,現(xiàn)有技術(shù)從各個方面進(jìn)行過嘗試,有的基于關(guān)系型數(shù)據(jù)庫提出了多種shard

ing方案。將關(guān)系型數(shù)據(jù)庫遷移到非關(guān)系型數(shù)據(jù)庫上代價太大,所以本解決方案基于關(guān)系型數(shù)據(jù)庫的系統(tǒng)。

根據(jù)以上的設(shè)計(jì)思路與實(shí)現(xiàn)目標(biāo),設(shè)計(jì)出分布式海量數(shù)據(jù)存儲解決方案。該系統(tǒng)主要包含以下四個模塊:

SQL解析模塊。SQL語句復(fù)雜、格式多樣、形式多變,解析結(jié)果作為數(shù)據(jù)切分的依據(jù)。解析SQL語句的方法是編譯成字節(jié)碼,生成語法樹,這種方式的優(yōu)點(diǎn)是準(zhǔn)確率高、數(shù)據(jù)層次清晰、結(jié)構(gòu)正確,但設(shè)計(jì)到相關(guān)語法樹知識,比解析字符串更難以理解。

數(shù)據(jù)分發(fā)模塊。如果集群系統(tǒng)中沒有進(jìn)行數(shù)據(jù)切分,則多臺數(shù)據(jù)庫服務(wù)器存儲的是完全一樣的數(shù)據(jù),這實(shí)際上是對硬件資源的浪費(fèi),也在同步數(shù)據(jù)保持一致上浪費(fèi)了更多的時間和效能。而且一旦數(shù)據(jù)再上升一個等級,很可能一臺服務(wù)器就無法存儲下大量數(shù)據(jù)。所以合適的數(shù)據(jù)切分策略是遲早的,本解決方案將結(jié)合現(xiàn)有的數(shù)據(jù)切分策略,結(jié)合業(yè)務(wù)邏輯,提供多樣的切分策略,并且預(yù)留切分接口使用戶靈活地自定義自實(shí)現(xiàn),系統(tǒng)的可用性更高。

并行處理模塊。由分發(fā)服務(wù)器和多臺數(shù)據(jù)庫服務(wù)器構(gòu)成。相對于集中式數(shù)據(jù)庫來說,分布式詢代價需要考慮以下因素:

CPU處理時間,I/O消耗時間,還有數(shù)據(jù)在網(wǎng)絡(luò)上的傳輸時間。在設(shè)計(jì)系統(tǒng)的時候,應(yīng)該根據(jù)分布式數(shù)據(jù)庫中各個數(shù)據(jù)庫的地理位置的不同情況來設(shè)計(jì)。在局域網(wǎng)且傳輸率高的系統(tǒng)中,通信代價和局部處理的開銷差別不大,在優(yōu)化中則應(yīng)平等對待;在數(shù)據(jù)傳輸率較低和通信網(wǎng)速度較慢的系統(tǒng)中,網(wǎng)絡(luò)傳輸可能會比花費(fèi)在查詢中的CPU及I/O的開銷更大,則應(yīng)首要考慮優(yōu)化網(wǎng)絡(luò)通信。

匯總處理塊。結(jié)果匯總大致分為兩種情況:單機(jī)單庫情況下,直接返回結(jié)果;多機(jī)多庫的情況則需要在轉(zhuǎn)發(fā)節(jié)點(diǎn)處進(jìn)行一個匯總。

基于架構(gòu)的工作流程大致如下:首先,轉(zhuǎn)發(fā)節(jié)點(diǎn)收到客戶端發(fā)來的SQL語句,將依據(jù)各個解析節(jié)點(diǎn)當(dāng)前工作量、預(yù)計(jì)完成解析工作的時間、本條查詢語句預(yù)估需要時間、歷史響應(yīng)需求時間等因素,將SQL語句轉(zhuǎn)發(fā)給各個解析節(jié)點(diǎn),對其進(jìn)行語法解析。當(dāng)所有的工作量都經(jīng)過這個轉(zhuǎn)發(fā)節(jié)點(diǎn)的時候,必然會產(chǎn)生高并發(fā)的問題。在存在多個分發(fā)節(jié)點(diǎn)的情形下,為了消除單個轉(zhuǎn)發(fā)節(jié)點(diǎn)的性能瓶頸,本文設(shè)計(jì)多個分發(fā)節(jié)點(diǎn),每個節(jié)點(diǎn)都可以將任務(wù)轉(zhuǎn)發(fā)到不同的解析節(jié)點(diǎn)。采用RoundRobin策略將任務(wù)依次分發(fā)給每個解析節(jié)點(diǎn),讓工作量保持均衡。其次,解析節(jié)點(diǎn)解析本次查詢的SQL語句,生成便于理解的SQL對象,通過調(diào)用相應(yīng)的接口方法可以實(shí)現(xiàn)對SQL語句的操作。最后,各個數(shù)據(jù)庫服務(wù)器執(zhí)行了 SQL語句,便對查詢結(jié)果進(jìn)行一個匯總并返回,劃分倘若是單機(jī)查詢,那么處理的結(jié)果可直接返回給客戶端。

SQL解析、數(shù)據(jù)切分以及轉(zhuǎn)發(fā)歸并的工作都由以上四個模塊協(xié)同完成。

基于MPP架構(gòu)的設(shè)計(jì)了關(guān)系型數(shù)據(jù)庫的海量數(shù)據(jù)分布式存儲解決方案。本章采用解析SQL語句、分發(fā)SQL語句,并行處理、歸并匯總處理結(jié)果的方式完成整個框架。與MySQL

Cluster的區(qū)別在于采用的存儲引擎就是MySQL,適應(yīng)于本身就用MySQL進(jìn)行存儲的集中式數(shù)據(jù)庫的改造,或是業(yè)務(wù)邏輯復(fù)雜的報(bào)表展示等,無論是業(yè)務(wù)的擴(kuò)展,遷移都十分方便。

參考文獻(xiàn):

篇9

關(guān)鍵詞:海量遙感影像 縮減存儲 瓦片地圖 高并發(fā)訪問

中圖分類號:P282 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2014)05(b)-0031-02

隨著遙感技術(shù)的發(fā)展,影像地圖應(yīng)用的日益增多,在全國級的海量影像地圖應(yīng)用中,數(shù)據(jù)的存儲、管理和更新是業(yè)界一直比較關(guān)注的熱點(diǎn)問題。當(dāng)前很多應(yīng)用會采用分塊分層結(jié)構(gòu)對影像地圖數(shù)據(jù)進(jìn)行切割處理,然后分塊調(diào)用[1],可以明顯加快顯示速度,下文稱此技術(shù)產(chǎn)生的地圖為瓦片地圖。在這種瓦片地圖應(yīng)用過程中,本文提出了一種基于特征點(diǎn)數(shù)據(jù)分布的海量影像地圖縮減存儲方法,并以瓦片影像地圖的應(yīng)用為實(shí)例進(jìn)行驗(yàn)證,該方法可以有效縮減90%以上的地圖存儲量,在此基礎(chǔ)上,本文還分析了數(shù)據(jù)快速更新機(jī)制、適用于高并發(fā)的多級數(shù)據(jù)存儲策略等海量地圖應(yīng)用關(guān)鍵技術(shù)的可行性。

1 影像數(shù)據(jù)組織方式

本文以瓦片式影像地圖的應(yīng)用作為實(shí)例,來驗(yàn)證該縮減壓縮方法的有效性,故此先簡述瓦片地圖的組織結(jié)構(gòu)以及數(shù)據(jù)存儲量的計(jì)算方法。

1.1 金字塔式瓦片存儲組織結(jié)構(gòu)

瓦片式電子地圖是當(dāng)前比較流行的地圖服務(wù)形式,其采用金字塔結(jié)構(gòu),對影像地圖進(jìn)行分層和分塊的劃分。按照既定的多層比例尺,把每一個比例尺的整幅影像地圖切割為256×256像素或者512×512像素的小幅圖片(通常稱為瓦片),地圖引擎再采用相應(yīng)的算法,把這些小幅圖片組織起來,顯示到客戶端界面。瓦片的結(jié)構(gòu)圖如圖1所示[2]。

1.2 影像地圖數(shù)據(jù)總量計(jì)算

假設(shè)切圖方式采用現(xiàn)在流行的WEB墨卡托投影切片方式,即橫向和豎向的瓦片數(shù)量一致,則可知每個地圖級別n的瓦片數(shù)量為2n×2n,0~18級瓦片地圖的總數(shù)據(jù)量及存儲空間見表1所示[3](通常情況下,影像瓦片地圖平均大小為10 KB)。

以上為全球的瓦片地圖總數(shù)據(jù)量,如果按中國大陸的區(qū)域進(jìn)行計(jì)算,0~18級的數(shù)據(jù)總量大約為1994965244×10/1024/1024/1024=18.58T。

2 影像地圖智能縮減存儲方法

下面以全國特征點(diǎn)數(shù)據(jù)為基礎(chǔ),詳述如何從中挖掘出重要區(qū)域信息,然后采用合適的高效算法,判斷某個位置的瓦片地圖是否是重要地圖,繼而選擇性的存儲,保證存儲的瓦片地圖都位于比較重要的位置。并且根據(jù)某個位置區(qū)域的特征點(diǎn)數(shù)據(jù)的密度,自動判斷某個比例尺下的某個瓦片是否為重要地圖,可針對每個比例尺進(jìn)行地圖重要性判斷,從而大大縮減了重要地圖的數(shù)量,達(dá)到地圖智能縮減存儲的目的。

2.1 挖掘重要區(qū)域信息

首先對全國特征點(diǎn)數(shù)據(jù)進(jìn)行網(wǎng)格劃分,劃分依據(jù)為14級瓦片地圖的切割方法,統(tǒng)計(jì)每個網(wǎng)格內(nèi)的數(shù)據(jù)量,并根據(jù)數(shù)據(jù)量的多少,計(jì)算當(dāng)前網(wǎng)格的重要程度,基于此重要程度,判斷當(dāng)前網(wǎng)格所處的區(qū)域是否為重要區(qū)域,并且根據(jù)重要程度的高低,判斷后續(xù)的15~18級地圖是否為重要地圖。

選擇14級作為基準(zhǔn)參考級別也是有所考慮的,14級網(wǎng)格數(shù)量約為596.7萬,若按15級或更大級別劃分,就容易因網(wǎng)格數(shù)量過大,降低后期數(shù)據(jù)判斷的運(yùn)算速度。并且因?yàn)楸局匾潭葦?shù)據(jù)本身只是參考數(shù)據(jù),并不一定代表實(shí)際情況,所以,過于要求數(shù)據(jù)的精準(zhǔn)度,并不一定達(dá)到更好的實(shí)際使用效果。

該分析方法具有通用性,當(dāng)特征點(diǎn)數(shù)據(jù)更新時,可快速的更新此重要區(qū)域信息,為后續(xù)的判斷提供新的依據(jù)。

2.2 基于重要區(qū)域信息的縮減存儲方法

按照上一步挖掘出的重要區(qū)域信息,判斷任意瓦片地圖是否為重要地圖,簡單的判斷依據(jù)為:

(1)小于14級,認(rèn)為全部是重要地圖。

(2)14級,當(dāng)網(wǎng)格內(nèi)數(shù)量大于0,則認(rèn)為是重要地圖。

(3)14級以上時,假設(shè)當(dāng)前級別為level,先找到當(dāng)前瓦片在14級所在的瓦片網(wǎng)格的位置,獲取此網(wǎng)格的數(shù)據(jù)量n,判斷當(dāng)n>=4level-14時,認(rèn)為此瓦片為重要地圖。

(4)循環(huán)所有瓦片地圖,即可知道那些為重要地圖。

在地圖存儲時,就可以僅存儲重要地圖,達(dá)到縮減存儲的目的。

考慮到特征點(diǎn)數(shù)據(jù)可能出現(xiàn)缺失,以及盡可能為重要地圖區(qū)域顯示更多的緩沖區(qū)域,并且重要地圖周邊一定范圍的地圖訪問量也會是比較高的,所以可對上述判斷依據(jù)做進(jìn)一步的優(yōu)化,以便更好的適用實(shí)際情況,可能包含以下優(yōu)化方法:

(1)重要地圖周邊N塊網(wǎng)格的地圖都認(rèn)為是重要地圖,N>=1,具體數(shù)值可根據(jù)實(shí)際情況設(shè)置。

(2)每個網(wǎng)格的權(quán)重不簡單的按照其中的特征點(diǎn)數(shù)量,而是參考周邊網(wǎng)格的權(quán)重進(jìn)行綜合計(jì)算,可有效的建立重要地圖的周邊緩沖帶,達(dá)到更好的顯示效果。

優(yōu)化后可達(dá)到更好的顯示效果,但也會帶來存儲量的增加,需根據(jù)實(shí)際情況選用。

3 應(yīng)用實(shí)例

本文以中國大陸的影像地圖為例,使用本文的數(shù)據(jù)縮減方法對海量瓦片影像數(shù)據(jù)進(jìn)行縮減存儲處理。

首先,對全國2000余萬條特征點(diǎn)數(shù)據(jù)進(jìn)行挖掘分析,計(jì)算出重要區(qū)域,然后通過此重要區(qū)域以及相關(guān)算法,判斷每個瓦片是否為重要地圖,計(jì)算結(jié)果如表2所示。

全部級別數(shù)據(jù)量之和為17176348張瓦片,總存儲空間約為163.8G,相比沒有縮減之前的18.58T的數(shù)據(jù)存儲空間,縮減比例達(dá)99.14%。

因影像瓦片地圖色彩都比較豐富,重要和非重要區(qū)域的地圖圖片大小差別并不是很大,由實(shí)際的存儲容量就可以看得出來,所以使用理論上的瓦片數(shù)據(jù)的比例作為存儲空間的縮減比例,是具有一定的參考價值的。

從部署和更新時間上考慮,163.8GB的瓦片地圖數(shù)據(jù)進(jìn)行切片、壓縮、打包、上傳、解壓等完整步驟,在單臺普通計(jì)算機(jī)上只需要20天左右的時間,如果使用多臺機(jī)器進(jìn)行任務(wù)分解操作,基本上可滿足快速更新部署的需求。

4 基于重要區(qū)域信息的擴(kuò)展應(yīng)用

4.1 地圖快速更新

如果有新的影像地圖數(shù)據(jù)產(chǎn)生,可優(yōu)先對重要區(qū)域內(nèi)的地圖數(shù)據(jù)進(jìn)行處理,達(dá)到數(shù)據(jù)快速更新的目的。

4.2 提升并發(fā)性能

眾所周知,對于大多數(shù)系統(tǒng)來說,最頭疼的就是大規(guī)模的小文件存儲與讀取,因?yàn)榇蓬^需要頻繁的尋道和換道,因此,在讀取上容易帶來較長的延時。在大量高并發(fā)訪問量的情況下,簡直就是系統(tǒng)的噩夢[4]。海量瓦片地圖就是這樣的情況,圖片數(shù)據(jù)可達(dá)數(shù)十億張以上,如果沒有比較好的存儲策略,在高并發(fā)訪問時,文件IO勢必成為系統(tǒng)瓶頸。當(dāng)前比較簡單且有效的方法是將訪問頻率較高或者隨機(jī)讀寫比例較高的數(shù)據(jù)文件放在固態(tài)硬盤SSD上,而將訪問頻率較低或者順序讀寫比例較高的數(shù)據(jù)文件存放在機(jī)械硬盤上[5]。

根據(jù)本文提出的數(shù)據(jù)縮減方法,就可以把重要地圖放置在SSD硬盤上,把剩余的地圖放置在機(jī)械硬盤上,可大大提升高并發(fā)時的地圖訪問速度。并且根據(jù)當(dāng)前主流的存儲器價格數(shù)據(jù),SSD存儲的價格大約是SATA盤的10~20倍,昂貴的高速存儲器只有比較小的存儲空間,把訪問量高的數(shù)據(jù)放在高速存儲上,訪問量低的數(shù)據(jù)放在低速存儲上,也可以達(dá)到節(jié)約成本的目的??傊?,使用本文的數(shù)據(jù)縮減存儲方法,可達(dá)到節(jié)約成本、提高并發(fā)訪問性能的目的。

4.3 原理通用性

本縮減方法,還可適用于平面地圖、地形圖等各種瓦片地圖或者其他地圖數(shù)據(jù)的存儲策略,便于對訪問需求量比較高的“重要地圖”進(jìn)行優(yōu)先考慮。

5 結(jié)語

本文提出的海量影像地圖數(shù)據(jù)縮減存儲方法,可有效的降低數(shù)據(jù)存儲量,特別是當(dāng)數(shù)據(jù)有多機(jī)備份時,具有非常明顯的效果;進(jìn)一步,基于此方法產(chǎn)生的重要區(qū)域信息數(shù)據(jù),本文還提出了其可能的一些擴(kuò)展應(yīng)用,例如解決數(shù)據(jù)多級存儲、高并發(fā)訪問、成本控制以及快速更新部署的問題。

參考文獻(xiàn)

[1] 王華斌,唐新明,李黔湘.海量遙感影像數(shù)據(jù)存儲管理技術(shù)研究與實(shí)現(xiàn)[J].測繪科學(xué),2008,33(6):156-157.

[2] 宋江洪,趙忠明.圖像分塊分層結(jié)構(gòu)在海量數(shù)據(jù)處理中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2004(33).

[3] 許輝,馬曉鵬.基于WEB墨卡托投影地理信息系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電腦編程技巧與維護(hù),2011(8).

篇10

關(guān)鍵詞 分布式計(jì)算 非關(guān)系型數(shù)據(jù)庫 海量數(shù)據(jù)處理 云計(jì)算

1 引言

目前網(wǎng)絡(luò)服務(wù)正從傳統(tǒng)的“高集中、高成本、低通用”的服務(wù)配置向“高分布、低成本、高通用”轉(zhuǎn)變。為了構(gòu)建出動態(tài)的、易擴(kuò)展的、高性價比的計(jì)算和存儲平臺,目前涌現(xiàn)出了云計(jì)算(Cloud computing)等新型網(wǎng)絡(luò)計(jì)算技術(shù)及其應(yīng)用系統(tǒng),目的都是將客戶數(shù)據(jù)和計(jì)算請求部署在大量集中或分布管理的廉價計(jì)算與存儲設(shè)備(如PC)上,利用高效的并行和分布式計(jì)算技術(shù),支持應(yīng)用的快速部署和任務(wù)調(diào)度,提供數(shù)據(jù)冗余機(jī)制,穩(wěn)定、快捷地滿足用戶的各種應(yīng)用。其中,數(shù)據(jù)的存儲方式是構(gòu)建云計(jì)算平臺時需要重點(diǎn)考慮的關(guān)鍵因素。

1970年,Edgar Frank Codd首次提出了數(shù)據(jù)庫的關(guān)系模型的概念,奠定了關(guān)系模型的理論基礎(chǔ)。后來Codd又陸續(xù)發(fā)表多篇文章,論述了范式理論和衡量關(guān)系系統(tǒng)的12條標(biāo)準(zhǔn),用數(shù)學(xué)理論奠定了關(guān)系數(shù)據(jù)庫的基礎(chǔ)。IBM的Ray Boyce和Don Chamberlin將Codd關(guān)系數(shù)據(jù)庫的12條準(zhǔn)則的數(shù)學(xué)定義以簡單的關(guān)鍵字語法表現(xiàn)出來,里程碑式地提出了SQL語言。由于關(guān)系模型簡單明了、具有堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ),所以一經(jīng)推出就受到了學(xué)術(shù)界和產(chǎn)業(yè)界的高度重視和廣泛響應(yīng),并很快成為數(shù)據(jù)庫市場的主流。當(dāng)前的大多數(shù)數(shù)據(jù)主要以關(guān)系型數(shù)據(jù)庫的方式進(jìn)行存儲。

隨著Web2.0的快速發(fā)展,非關(guān)系型、分布式數(shù)據(jù)庫存儲得到了快速的發(fā)展,它們不保證關(guān)系數(shù)據(jù)的ACID特性。非關(guān)系型數(shù)據(jù)庫(NosQL)概念在2009年被提出來,其主要特點(diǎn)如下:

(1)松耦合類型:使用松耦合類型、可擴(kuò)展的數(shù)據(jù)模式來對數(shù)據(jù)進(jìn)行邏輯建模(Map、列、文檔、圖標(biāo)等)。

(2)彈性計(jì)算能力:以遵循于CAP定理的跨多節(jié)點(diǎn)數(shù)據(jù)分布模型而設(shè)計(jì),支持水平伸縮。也即對于多數(shù)據(jù)中心和動態(tài)供應(yīng)的必要支持,即彈性計(jì)算能力。

(3)靈活存儲:擁有在磁盤或者內(nèi)存中,或者在這兩者中都有,對數(shù)據(jù)持久化的能力,有時候還可以使用可熱插拔的定制存儲。

(4)多數(shù)據(jù)接口:支持多種的“Non-SQL”接口進(jìn)行數(shù)據(jù)訪問。

(5)易擴(kuò)展:NoSQL種類繁多,但是共同的特點(diǎn)是沒有關(guān)系數(shù)據(jù)庫的關(guān)系型特征。數(shù)據(jù)中間無關(guān)系,因此擴(kuò)展比較容易,同時在架構(gòu)的層面也帶來了可擴(kuò)展的能力。

(6)大數(shù)據(jù)量,高性能:NoSQL由于無關(guān)系型,數(shù)據(jù)存儲的結(jié)構(gòu)簡單;且NoSQL的Cache是記錄級別的,因此性能要高很多。

(7)靈活的數(shù)據(jù)模型:NoSQL無需事先為要存儲的數(shù)據(jù)建立字段,隨時可以存儲自定義的數(shù)據(jù)格式;而關(guān)系數(shù)據(jù)庫,則基本不可能。

(8)高可用:NoSQL由于采用CAP原則設(shè)計(jì),在不影響性能的情況下,可以實(shí)現(xiàn)高可用的架構(gòu)。

目前普遍受到關(guān)注的基于大規(guī)模廉價計(jì)算平臺的系統(tǒng)包括Google的云計(jì)算平臺和Yahoo資助的開源項(xiàng)目Hadoop系統(tǒng)等。這兩種系統(tǒng)采用了非常近似的Map/Reduce計(jì)算模式和大規(guī)模分布式非關(guān)系數(shù)據(jù)存儲NoSQL機(jī)制(Google的Bigtable和Hadoop的HBase)。

本文的貢獻(xiàn)在于:探索在混搭平臺上,既利用NoSQL的高并發(fā)、高擴(kuò)展、低成本的特性,又保持了傳統(tǒng)數(shù)據(jù)庫成熟的解決方案,從而展示了混搭平臺對于海量數(shù)據(jù)存儲及分析處理能力,以源自電信部門的大規(guī)模業(yè)務(wù)數(shù)據(jù)為分析對象,構(gòu)建了一個具有良好參考價值的應(yīng)用示范。

2 技術(shù)思路

隨著電信行業(yè)的發(fā)展和用戶規(guī)模的不斷擴(kuò)大,每天都產(chǎn)生著海量的業(yè)務(wù)數(shù)據(jù)、上網(wǎng)數(shù)據(jù)、信令數(shù)據(jù)、用戶話單數(shù)據(jù)等。運(yùn)營商普遍希望利用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進(jìn)行分析處理,從而提供決策支持和為用戶提供增值服務(wù)。然而由于數(shù)據(jù)量過于龐大,利用關(guān)系型數(shù)據(jù)庫和復(fù)雜SQL語言對數(shù)據(jù)進(jìn)行處理的傳統(tǒng)方法將占用大量處理與存儲資源,造成承載的服務(wù)器負(fù)載過高,執(zhí)行效率低下,不得不提升服務(wù)器性能及存儲規(guī)模,導(dǎo)致投資成本增加,已經(jīng)越來越不可取。

“非關(guān)系型數(shù)據(jù)庫”能夠以兩種基本的方式實(shí)現(xiàn)業(yè)務(wù)處理的靈活性。模式自由的邏輯數(shù)據(jù)模型有助于為任何業(yè)務(wù)進(jìn)行調(diào)整帶來更快的周轉(zhuǎn)時間,把對現(xiàn)有應(yīng)用和功能造成的影響減到最少,在大多數(shù)情況下因變更而帶來的遷移工作幾乎為零;水平伸縮性能夠在用戶增加造成負(fù)載周期性變化,或者應(yīng)用突然變更的使用模式時,提供堅(jiān)固的保障。面向水平伸縮型的架構(gòu)也是邁向基于SLA構(gòu)建的第一步,這樣才能保證在應(yīng)用不斷變化的情形下業(yè)務(wù)處理保持連續(xù)。

分布式數(shù)據(jù)的核心問題是保證磁盤I/O不能成為應(yīng)用性能的瓶頸,在此之上,絕大部分解決方案支持各種新一代并行計(jì)算的范式,例如MapReduce、排序列、Bloom Filter、B樹、Memtable等。分布式計(jì)算模式將大型任務(wù)分成很多細(xì)粒度的子任務(wù),這些子任務(wù)分布式地在多個計(jì)算節(jié)點(diǎn)上進(jìn)行調(diào)度和計(jì)算,從而在云平臺上獲得對海量數(shù)據(jù)的處理能力,可以有效地解決電信行業(yè)海量數(shù)據(jù)挖掘處理中所存在的問題。

以關(guān)系型數(shù)據(jù)庫存儲和非關(guān)系型數(shù)據(jù)NoSQL存儲為基礎(chǔ),結(jié)合云計(jì)算下的分布式計(jì)算理念,以下提出對電信數(shù)據(jù)的海量數(shù)據(jù)處理方法。

3 方案設(shè)計(jì)

結(jié)合關(guān)系數(shù)據(jù)庫存儲敏感數(shù)據(jù)及實(shí)時訪問的優(yōu)點(diǎn),以及非關(guān)系數(shù)據(jù)庫模式自由與低成本高性能高可擴(kuò)展的優(yōu)點(diǎn),本文提出了關(guān)系數(shù)據(jù)庫與非關(guān)系數(shù)據(jù)庫NoSQL相結(jié)合的海量數(shù)據(jù)方案。系統(tǒng)架構(gòu)如圖1所示。

(1)數(shù)據(jù)整合層

通過封裝關(guān)系數(shù)據(jù)存儲與非關(guān)系數(shù)據(jù)存儲的混合存儲模型,化繁為簡,用于實(shí)現(xiàn)數(shù)據(jù)訪問與共享的隔離。

本系統(tǒng)的核心在于關(guān)系數(shù)據(jù)存儲和非關(guān)系數(shù)據(jù)存儲的有效結(jié)合。非關(guān)系型數(shù)據(jù)存儲和關(guān)系數(shù)據(jù)存儲主要包括如下技術(shù)實(shí)現(xiàn)方式:非關(guān)系存儲作為鏡像(可以采用代碼同步模式或者同步模式)、關(guān)系與非關(guān)系數(shù)據(jù)存儲的組合。鑒于電信行業(yè)數(shù)據(jù)的特點(diǎn),本系統(tǒng)主要采用關(guān)系和非關(guān)系存儲組合的方式進(jìn)行實(shí)現(xiàn)。