海量數(shù)據(jù)范文
時(shí)間:2023-03-15 00:18:36
導(dǎo)語(yǔ):如何才能寫(xiě)好一篇海量數(shù)據(jù),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:數(shù)據(jù);處理;存儲(chǔ)
中圖分類號(hào):TP311.52 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 16-0000-02
1 引言
在企業(yè)競(jìng)爭(zhēng)日益激烈的今天,第一時(shí)間了解公司線上業(yè)務(wù)運(yùn)行情況并及時(shí)進(jìn)行調(diào)整直接決定了項(xiàng)目能否第一時(shí)間占據(jù)市場(chǎng)高地。對(duì)業(yè)務(wù)數(shù)據(jù)的處理涉及到收集,存儲(chǔ),加工三個(gè)關(guān)鍵步驟,而根據(jù)不同的業(yè)務(wù)類型,對(duì)數(shù)據(jù)的一致性,準(zhǔn)確性,實(shí)時(shí)性都有不同的要求。能否制定出適合業(yè)務(wù)類型的數(shù)據(jù)處理解決方案將決定數(shù)據(jù)處理系統(tǒng)的成敗,從而影響了項(xiàng)目的命運(yùn)。本文將從介紹數(shù)據(jù)收集開(kāi)始,結(jié)合不同的業(yè)務(wù)類型提出相應(yīng)的解決方案,并權(quán)衡各種方案的利弊。
2 數(shù)據(jù)收集
本文的討論重點(diǎn)是關(guān)系型數(shù)據(jù)庫(kù)解決方案及NoSQL解決方案的比較,但在此之前對(duì)數(shù)據(jù)收集進(jìn)行簡(jiǎn)要介紹對(duì)于理解后續(xù)的模型是有必要的。由于企業(yè)的業(yè)務(wù)往往分散在各地的服務(wù)器上,要對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行收集可采取兩種方案,服務(wù)端主動(dòng)發(fā)送,服務(wù)端記錄日志并由數(shù)據(jù)收集系統(tǒng)的客戶端進(jìn)行收集并發(fā)送。為減少業(yè)務(wù)之間的耦合,我們將采取第二種方案,即業(yè)務(wù)相關(guān)服務(wù)記錄特定格式日志,并由客戶端進(jìn)行收集,在業(yè)務(wù)相關(guān)服務(wù)中僅需添加根據(jù)特定格式寫(xiě)日志接口。
3 數(shù)據(jù)存儲(chǔ)
對(duì)于海量數(shù)據(jù)的處理,數(shù)據(jù)存儲(chǔ)在后續(xù)應(yīng)用及維護(hù)中占據(jù)了核心地位。設(shè)計(jì)良好的存儲(chǔ)模型與設(shè)計(jì)不合理的模型在對(duì)資源的消耗上有著天壤之別,而一個(gè)針對(duì)具體問(wèn)題設(shè)計(jì)合理的方案能夠在工作中事半功倍。
3.1 關(guān)系型數(shù)據(jù)庫(kù)模型
當(dāng)業(yè)務(wù)規(guī)模相對(duì)較小并且業(yè)務(wù)種類單一時(shí)(比如一些剛起步的游戲公司)其主要需關(guān)注的數(shù)據(jù)是一些游戲的在線、登入、登出、付費(fèi)人數(shù)等數(shù)據(jù),在下文中將稱其為關(guān)鍵運(yùn)營(yíng)數(shù)據(jù)。這些數(shù)據(jù)表現(xiàn)了一個(gè)項(xiàng)目的生命特征(當(dāng)這些特征表現(xiàn)很低靡時(shí),如果不是服務(wù)器出問(wèn)題了,公司管理者就應(yīng)該為項(xiàng)目的前途擔(dān)心了)。對(duì)于這些數(shù)據(jù)要求有極高的一致性、準(zhǔn)確性以及實(shí)時(shí)性。當(dāng)然最好能記錄明細(xì)(明細(xì)往往由相關(guān)的提供業(yè)務(wù)支持的系統(tǒng)進(jìn)行維護(hù))。對(duì)于這種類型的數(shù)據(jù),需要為每個(gè)業(yè)務(wù)邏輯制定一個(gè)標(biāo)識(shí),當(dāng)收集到該數(shù)據(jù)時(shí),(數(shù)據(jù)處理)服務(wù)端根據(jù)該標(biāo)識(shí)對(duì)數(shù)據(jù)進(jìn)行區(qū)分,從而存儲(chǔ)于數(shù)據(jù)庫(kù)中。對(duì)這類數(shù)據(jù)須保證實(shí)時(shí)性,但不需要保持時(shí)序關(guān)系。
3.2 NOSQL思想
“NoSQL這一術(shù)語(yǔ)常用于描述網(wǎng)頁(yè)開(kāi)發(fā)者對(duì)非關(guān)系型數(shù)據(jù)庫(kù)與日俱增的使用”。[3]
隨著公司業(yè)務(wù)種類的多樣化,以及業(yè)務(wù)的深入,越來(lái)越多的項(xiàng)目浮出水面,尤其是對(duì)于無(wú)線項(xiàng)目,由于這類項(xiàng)目往往由用戶下載客戶端后客戶端直接提供服務(wù),限制于發(fā)行商對(duì)產(chǎn)品的限制,不便因數(shù)據(jù)收集的需求對(duì)產(chǎn)品進(jìn)行頻繁修改。而業(yè)務(wù)的深入也必定帶來(lái)更多更細(xì)致的數(shù)據(jù)需求。在這樣的背景下,類似于關(guān)鍵運(yùn)營(yíng)數(shù)據(jù)那樣為每個(gè)業(yè)務(wù)邏輯制定標(biāo)識(shí)的方法維護(hù)性將變得很低(試想對(duì)某個(gè)游戲的所有道具、所有任務(wù)、所有NPC或是一個(gè)行為產(chǎn)生的結(jié)果進(jìn)行數(shù)據(jù)收集,將需要為所有的這些對(duì)象制定標(biāo)識(shí),系統(tǒng)的開(kāi)發(fā)者以及維護(hù)者將不堪重負(fù))。此時(shí)地?cái)?shù)據(jù)將成幾何級(jí)數(shù)倍的速度增長(zhǎng),正如[1]中所說(shuō),“對(duì)于這些數(shù)據(jù)的讀寫(xiě)操作大多基于主鍵,而并不需要基于RDBMS的復(fù)雜功能,而為了維護(hù)這些過(guò)量的功能企業(yè)不得不投入大量的硬件和人力資源,使基于RDBMS的解決方案變得很低效。”,“盡管在RDBMS上近幾年取得了許多進(jìn)步,但要擴(kuò)展一個(gè)數(shù)據(jù)庫(kù)仍然不是一件輕松的工作?!彼猿吮緛?lái)就應(yīng)考慮的一致性準(zhǔn)確性等問(wèn)題外,存儲(chǔ)模型的延伸性也應(yīng)該進(jìn)行考量。
如[2]中提到的Brewer的CAP理論中陳述的,“在任何一個(gè)系統(tǒng)(常為分布式系統(tǒng))中,一致性,可用性,以及分區(qū)容忍性只能三選其二”,對(duì)于CAP三者的解釋如下,Consistency(一致性):對(duì)所有數(shù)據(jù)庫(kù)的查詢操作都將獲取同樣的結(jié)果,即使在并發(fā)更新的情況下。Availability(可用性):所有的數(shù)據(jù)庫(kù)客戶端總能存取數(shù)據(jù)。Partition Tolerance(分區(qū)容忍性):數(shù)據(jù)庫(kù)能被分割開(kāi)到多臺(tái)機(jī)器上,即使發(fā)生網(wǎng)絡(luò)中斷也能繼續(xù)提供服務(wù)。在現(xiàn)有的需求下,較好的實(shí)現(xiàn)能夠根據(jù)配置在這三者間進(jìn)行調(diào)解,如Cassandra[2]。
本文討論的存儲(chǔ)模型的存儲(chǔ)策略借鑒了Dynamo,而數(shù)據(jù)結(jié)構(gòu)類似于Google的Big-table,目前開(kāi)源社區(qū)對(duì)該類存儲(chǔ)模型較好的實(shí)現(xiàn)可以參考Cassandra。同時(shí)這類系統(tǒng)一般用于公司內(nèi)部運(yùn)營(yíng)支持,暫不考慮安全性相關(guān)問(wèn)題。
3.3 NOSQL模型
在新項(xiàng)目上線之前,可以根據(jù)策劃案對(duì)可能需要設(shè)計(jì)的數(shù)據(jù)需求進(jìn)行統(tǒng)籌,并制定需求,在與數(shù)據(jù)處理系統(tǒng)開(kāi)發(fā)人員,產(chǎn)品開(kāi)發(fā)人員溝通后,最終修改需求并不再進(jìn)行更改。在產(chǎn)品開(kāi)發(fā)之前,為這些需求制定標(biāo)識(shí)字串,這些字串往往是自說(shuō)明的。在一切都準(zhǔn)備好之后,在產(chǎn)品的業(yè)務(wù)代碼中加入相應(yīng)的數(shù)據(jù)收集代碼。
當(dāng)用戶在產(chǎn)品中產(chǎn)生一個(gè)動(dòng)作時(shí),與該行為相對(duì)應(yīng)的結(jié)果將通過(guò)數(shù)據(jù)收集代碼寫(xiě)到磁盤中,數(shù)據(jù)收集客戶端將分析磁盤上的文件,將對(duì)應(yīng)的字串發(fā)送至服務(wù)端。服務(wù)端可以通過(guò)在框架上使用共享庫(kù)的方式,加在不同模塊以針對(duì)不同的數(shù)據(jù)類型。比如可以專門有一個(gè)共享庫(kù)用來(lái)處理放入NoSQL存儲(chǔ)的數(shù)據(jù)。根據(jù)Big-table中提出的數(shù)據(jù)模型思想,可以通過(guò)主鍵定位到具體的數(shù)據(jù),故存放之前需要對(duì)整個(gè)字串進(jìn)行拆解,根據(jù)事先制定的數(shù)據(jù)模型來(lái)組成不同的數(shù)據(jù)包并寫(xiě)入存儲(chǔ)。
由于到達(dá)數(shù)據(jù)處理服務(wù)端的字串是自說(shuō)明的,其中包含了用來(lái)定位一個(gè)數(shù)據(jù)所有必要的信息,所以若在最初制定的數(shù)據(jù)需求是全面的,游戲中所有用戶相關(guān)行為產(chǎn)生的數(shù)值信息都可以使用相同的格式寫(xiě)至磁盤,很大程度上節(jié)省了產(chǎn)品開(kāi)發(fā)人員以及,數(shù)據(jù)處理系統(tǒng)開(kāi)發(fā)及維護(hù)人員以及在雙方溝通中消耗的溝通成本。
基于Dynamo思想的分布式存儲(chǔ)采用了P2P結(jié)構(gòu),使用該節(jié)點(diǎn)的好處在于所有的節(jié)點(diǎn)都是對(duì)等的,即使其中一個(gè)出現(xiàn)問(wèn)題,如斷電、網(wǎng)絡(luò)中斷等,只要采用合理的備份策略,整個(gè)集群是可用的。另外采用這樣的方法便于維護(hù)人員向集群中添加或減少機(jī)器,因?yàn)樗泄?jié)點(diǎn)是對(duì)等的。
由此可見(jiàn),妥善使用NoSQL并設(shè)計(jì)良好的話,可以極大地降低開(kāi)發(fā)及維護(hù)人員的人力成本。
4 總結(jié)
無(wú)論是關(guān)系型數(shù)據(jù)庫(kù)還是NoSQL都不可能成為最終的解決方案,正如多年前被的認(rèn)為關(guān)系型數(shù)據(jù)庫(kù)可以成為終極的解決方案的思想一樣,NoSQL也不可能坐上這一寶座。
所幸的是,現(xiàn)在的工程師們?cè)诮?jīng)歷了關(guān)系型數(shù)據(jù)庫(kù)時(shí)代后對(duì)這一點(diǎn)已經(jīng)有了深刻的認(rèn)識(shí),并以此為動(dòng)力開(kāi)發(fā)出了多樣化的NoSQL產(chǎn)品,每一款都解決了某些特定的問(wèn)題。對(duì)于即將使用NoSQL思想設(shè)計(jì)自己系統(tǒng)的工程師,應(yīng)當(dāng)仔細(xì)分析自己的需求,使用最適合自己的NoSQL產(chǎn)品,或者對(duì)現(xiàn)有的NoSQL產(chǎn)品進(jìn)行定制(很多產(chǎn)品如Cassandra都提供了可自定義的接口)。甚至可以根據(jù)需求設(shè)計(jì)并開(kāi)發(fā)自己的數(shù)據(jù)庫(kù)系統(tǒng)。
在思考解決方案時(shí),也務(wù)必需要考慮是否在該項(xiàng)目中是否真的有必要使用NoSQL產(chǎn)品,因?yàn)橥鶎?duì)一家相對(duì)成熟的公司(有自己的數(shù)據(jù)庫(kù)管理員)在使用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行開(kāi)發(fā)時(shí)的效率是最高風(fēng)險(xiǎn)最低的。
參考文獻(xiàn):
[1]Dynamo:Amazon’s Highly Available Key-value Store
[2]Oreilly Cassandra The Definitive Guide
篇2
關(guān)鍵詞:RFID;海量數(shù)據(jù);數(shù)據(jù)挖掘
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2010)19-5359-02
Research on Mass Data Mining for RFID
LIN Zhong-da YAN Xin-zhe
(College of Information Engineering, Nanchang University, Nanchang 330031, China)
Abstract: The technology of RFID has been applied in many kind of domain since 1990s.In recent years,the application scope of RFID has expanded rapidly because of its convenient and long service life,the statement of "Internet of Things" made the development of RFID more fast,RFID has become one of the most important technology in the 20th century.Facing the mass data produced by RFID,the traditional way of data mining cannot satisfy the need of information acquisition.This article introduces the RFID system simply,and makes some discussion to the mass data mining for RFID by analyzes the characteristic of RFID data.
Key words: RFID; mass data; data mining
RFID(Radio Frequency Identification),即無(wú)線射頻識(shí)別技術(shù),是一種新型的非接觸式自動(dòng)識(shí)別技術(shù)。RFID于20世紀(jì)90年代開(kāi)始興起,與其它自動(dòng)識(shí)別技術(shù)相比,RFID具有信息量大、抗干擾能力強(qiáng)、保密性高、使用壽命長(zhǎng)等優(yōu)點(diǎn),因此,近年來(lái)廣泛應(yīng)用于多種商業(yè)領(lǐng)域,尤其是物流和供應(yīng)鏈管理。
數(shù)據(jù)挖掘是一門從大量數(shù)據(jù)中提取有用信息的學(xué)科,在各種商業(yè)領(lǐng)域中有著廣泛應(yīng)用。數(shù)據(jù)挖掘通過(guò)聚類、關(guān)聯(lián)分析等多種方式從大型數(shù)據(jù)倉(cāng)庫(kù)中查找并提取決策者感興趣的信息,以便決策者對(duì)未來(lái)商業(yè)活動(dòng)進(jìn)行預(yù)測(cè)與計(jì)劃。自20世紀(jì)80年代以來(lái),數(shù)據(jù)挖掘技術(shù)得到了迅猛的發(fā)展,出現(xiàn)了許多成熟的挖掘算法和數(shù)據(jù)挖掘工具。
RFID技術(shù)的發(fā)展,向傳統(tǒng)的數(shù)據(jù)挖掘提出了挑戰(zhàn)。RFID數(shù)據(jù)有著與傳統(tǒng)數(shù)據(jù)不同的特點(diǎn),因此,必須針對(duì)RFID數(shù)據(jù)設(shè)計(jì)新的數(shù)據(jù)挖掘系統(tǒng),以滿足RFID海量數(shù)據(jù)的挖掘要求。
1 RFID數(shù)據(jù)分析
1.1 RFID系統(tǒng)簡(jiǎn)介
RFID是一種新興的自動(dòng)識(shí)別技術(shù),它利用射頻信號(hào)傳遞信息,達(dá)到無(wú)接觸識(shí)別的目的。一個(gè)完整的RFID系統(tǒng)由標(biāo)簽、閱讀器和應(yīng)用軟件三部分組成:
標(biāo)簽(Tag):標(biāo)簽是一個(gè)小型芯片,它帶有全球唯一的標(biāo)識(shí)碼,附著在目標(biāo)物體上,用來(lái)標(biāo)識(shí)物體。按照有無(wú)電源,標(biāo)簽可以分為有源標(biāo)簽和無(wú)源標(biāo)簽。有源標(biāo)簽可以主動(dòng)向閱讀器發(fā)送信息,但需要電源支持,并且價(jià)格更高。無(wú)源標(biāo)簽只能被動(dòng)等待閱讀器讀取信息,但結(jié)構(gòu)簡(jiǎn)單,無(wú)須電源支持,價(jià)格便宜。按照是否可寫(xiě),標(biāo)簽可以分為只讀標(biāo)簽和可讀寫(xiě)標(biāo)簽。只讀標(biāo)簽內(nèi)的信息在出廠時(shí)固化,之后不能更改。可讀寫(xiě)標(biāo)簽則可以在其中自由讀取和寫(xiě)入信息,更加方便靈活。
閱讀器(Reader):閱讀器是一個(gè)可以發(fā)送和接收某個(gè)特定頻率信號(hào)的設(shè)備,它可以向標(biāo)簽發(fā)送射頻信號(hào),并接收返回的信號(hào),讀取其中的信息,解碼后將數(shù)據(jù)傳送給應(yīng)用軟件處理。如果標(biāo)簽是可讀寫(xiě)的,閱讀器還可以發(fā)送信號(hào)改變標(biāo)簽內(nèi)的數(shù)據(jù)。閱讀器抗干擾能力強(qiáng),并且具有防沖撞功能,即使有數(shù)個(gè)標(biāo)簽同時(shí)出現(xiàn)在閱讀器工作范圍內(nèi),也可以分別識(shí)別出每個(gè)標(biāo)簽的信息而不會(huì)混淆。
應(yīng)用軟件:應(yīng)用軟件負(fù)責(zé)處理閱讀器返回的數(shù)據(jù),如果標(biāo)簽是可讀寫(xiě)的,應(yīng)用軟件還負(fù)責(zé)向閱讀器傳送需要改寫(xiě)的標(biāo)簽數(shù)據(jù)。
RFID系統(tǒng)的數(shù)據(jù)采集過(guò)程如下:閱讀器向周圍發(fā)送某一頻率的射頻信號(hào),處于閱讀器工作范圍內(nèi)且擁有相同頻率的標(biāo)簽接收信號(hào)后,將標(biāo)簽芯片中儲(chǔ)存的信息發(fā)送出去,閱讀器接收信號(hào)并讀取其中的信息,解碼后將信息傳遞給應(yīng)用軟件處理。
1.2 RFID數(shù)據(jù)特點(diǎn)
作為一種新型的數(shù)據(jù)采集技術(shù),RFID在實(shí)際應(yīng)用中采集到的數(shù)據(jù)有著自身的特點(diǎn)。概括起來(lái),有以下幾種:
海量:在商業(yè)領(lǐng)域中,貨物流動(dòng)非常頻繁,每樣貨物附著的標(biāo)簽都將自己的信息傳遞給流通路徑上遇到的所有閱讀器,這樣產(chǎn)生的數(shù)據(jù)量是非常驚人的。如果采用傳統(tǒng)數(shù)據(jù)挖掘方法直接挖掘,將很難取得良好的效果。
冗余:閱讀器不間斷的向周圍發(fā)送射頻信號(hào),而不同閱讀器的工作范圍可能發(fā)生重疊,因此,RFID數(shù)據(jù)會(huì)出現(xiàn)兩種冗余情況,時(shí)間冗余和空間冗余。時(shí)間冗余是指標(biāo)簽長(zhǎng)期處于某一閱讀器工作范圍內(nèi)時(shí),會(huì)多次向閱讀器發(fā)送自己的信息??臻g冗余是指標(biāo)簽處于多個(gè)閱讀器工作范圍內(nèi)時(shí),會(huì)向每一個(gè)閱讀器都發(fā)送自己的信息。由于閱讀器的閱讀周期相對(duì)于標(biāo)簽的停留時(shí)間非常短,而一個(gè)大型貨物中轉(zhuǎn)站安放的閱讀器數(shù)量又很多,工作范圍重疊不可避免,因此數(shù)據(jù)冗余造成的影響是巨大的。
連續(xù):閱讀器的閱讀周期固定,并且相對(duì)于標(biāo)簽的停留時(shí)間非常短,因此,RFID數(shù)據(jù)將按照時(shí)間序列保持連續(xù)性。這種連續(xù)性在數(shù)據(jù)挖掘中可能有一定的利用價(jià)值。
分散:在現(xiàn)實(shí)世界中,貨物的流通范圍非常廣,中國(guó)生產(chǎn)的皮鞋可以銷往歐洲,南非出產(chǎn)的鉆石可以賣到北美,因此,RFID數(shù)據(jù)在地理上是非常分散的。如何高效的從這些分散的數(shù)據(jù)中挖掘有用的信息,是RFID數(shù)據(jù)挖掘需要面對(duì)的一個(gè)問(wèn)題。
RFID數(shù)據(jù)的以上特點(diǎn),使得我們必須尋找合適的數(shù)據(jù)挖掘方式,以便更好的管理和利用RFID數(shù)據(jù),滿足RFID數(shù)據(jù)挖掘的需求。
2 RFID數(shù)據(jù)處理
RFID采集的原始數(shù)據(jù)是一個(gè)三元組(EPC,Location,Time),其中EPC是標(biāo)簽的標(biāo)識(shí)碼,Location是閱讀器讀取標(biāo)簽的地點(diǎn),Time是閱讀器讀取標(biāo)簽的時(shí)間。企業(yè)需要從RFID數(shù)據(jù)中了解的信息是產(chǎn)品流通的路徑和時(shí)間,由于原始數(shù)據(jù)的規(guī)模過(guò)于龐大,因此,在將原始數(shù)據(jù)存入數(shù)據(jù)倉(cāng)庫(kù)之前,應(yīng)當(dāng)先對(duì)原始數(shù)據(jù)進(jìn)行處理,以便提高挖掘效率。對(duì)RFID數(shù)據(jù)來(lái)說(shuō),處理的步驟主要是數(shù)據(jù)清理和數(shù)據(jù)歸約。
篇3
一、海量數(shù)據(jù)挖掘關(guān)鍵技術(shù)隨時(shí)代而變化
所謂海量數(shù)據(jù)挖掘,是指應(yīng)用一定的算法,從海量的數(shù)據(jù)中發(fā)現(xiàn)有用的信息和知識(shí)。海量數(shù)據(jù)挖掘關(guān)鍵技術(shù)主要包括海量數(shù)據(jù)存儲(chǔ)、云計(jì)算、并行數(shù)據(jù)挖掘技術(shù)、面向數(shù)據(jù)挖掘的隱私保護(hù)技術(shù)和數(shù)據(jù)挖掘集成技術(shù)。
1.海量數(shù)據(jù)存儲(chǔ)
海量存儲(chǔ)系統(tǒng)的關(guān)鍵技術(shù)包括并行存儲(chǔ)體系架構(gòu)、高性能對(duì)象存儲(chǔ)技術(shù)、并行I/O訪問(wèn)技術(shù)、海量存儲(chǔ)系統(tǒng)高可用技術(shù)、嵌入式64位存儲(chǔ)操作系統(tǒng)、數(shù)據(jù)保護(hù)與安全體系、綠色存儲(chǔ)等。
海量數(shù)據(jù)存儲(chǔ)系統(tǒng)為云計(jì)算、物聯(lián)網(wǎng)等新一代高新技術(shù)產(chǎn)業(yè)提供核心的存儲(chǔ)基礎(chǔ)設(shè)施;為我國(guó)的一系列重大工程如平安工程等起到了核心支撐和保障作用;海量存儲(chǔ)系統(tǒng)已經(jīng)使用到石油、氣象、金融、電信等國(guó)家重要行業(yè)與部門。發(fā)展具有自主知識(shí)產(chǎn)權(quán)、達(dá)到國(guó)際先進(jìn)水平的海量數(shù)據(jù)存儲(chǔ)系統(tǒng)不僅能夠填補(bǔ)國(guó)內(nèi)在高端數(shù)據(jù)存儲(chǔ)系統(tǒng)領(lǐng)域的空白,而且可以滿足國(guó)內(nèi)許多重大行業(yè)快速增長(zhǎng)的海量數(shù)據(jù)存儲(chǔ)需要,并創(chuàng)造巨大的經(jīng)濟(jì)效益。
2.云計(jì)算
目前云計(jì)算的相關(guān)應(yīng)用主要有云物聯(lián)、云安全、云存儲(chǔ)。云存儲(chǔ)是在云計(jì)算(cloud computing)概念上延伸和發(fā)展出來(lái)的新概念,是指通過(guò)集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能的一個(gè)系統(tǒng)。
當(dāng)云計(jì)算系統(tǒng)運(yùn)算和處理的核心是大量數(shù)據(jù)的存儲(chǔ)和管理時(shí),云計(jì)算系統(tǒng)中就需要配置大量的存儲(chǔ)設(shè)備,那么云計(jì)算系統(tǒng)就轉(zhuǎn)變成為一個(gè)云存儲(chǔ)系統(tǒng),所以云存儲(chǔ)是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng)。
3.并行數(shù)據(jù)挖掘技術(shù)
高效率的數(shù)據(jù)挖掘是人們所期望的,但當(dāng)數(shù)據(jù)挖掘的對(duì)象是一個(gè)龐大的數(shù)據(jù)集或是許多廣泛分布的數(shù)據(jù)源時(shí),效率就成為數(shù)據(jù)挖掘的瓶頸。隨著并行處理技術(shù)的快速發(fā)展,用并行處理的方法來(lái)提高數(shù)據(jù)挖掘效率的需求越來(lái)越大。
并行數(shù)據(jù)挖掘涉及到了一系列體系結(jié)構(gòu)和算法方面的技術(shù),如硬件平臺(tái)的選擇(共享內(nèi)存的或者分布式的)、并行的策略(任務(wù)并行、數(shù)據(jù)并行或者任務(wù)并行與數(shù)據(jù)并行結(jié)合)、負(fù)載平衡的策略(靜態(tài)負(fù)載平衡或者動(dòng)態(tài)負(fù)載平衡)、數(shù)據(jù)劃分的方式(橫向的或者縱向的)等。處理并行數(shù)據(jù)挖掘的策略主要涉及三種算法:并行關(guān)聯(lián)規(guī)則挖掘算法、并行聚類算法和并行分類算法。
4.面向數(shù)據(jù)挖掘的隱私保護(hù)技術(shù)
數(shù)據(jù)挖掘在產(chǎn)生財(cái)富的同時(shí)也隨之出現(xiàn)了隱私泄露的問(wèn)題。如何在防止隱私泄露的前提下進(jìn)行數(shù)據(jù)挖掘,是信息化時(shí)代各行業(yè)現(xiàn)實(shí)迫切的需求。
基于隱私保護(hù)的數(shù)據(jù)挖掘是指采用數(shù)據(jù)擾亂、數(shù)據(jù)重構(gòu)、密碼學(xué)等技術(shù)手段,能夠在保證足夠精度和準(zhǔn)確度的前提下,使數(shù)據(jù)挖掘者在不觸及實(shí)際隱私數(shù)據(jù)的同時(shí),仍能進(jìn)行有效的挖掘工作。
受數(shù)據(jù)挖掘技術(shù)多樣性的影響,隱私保護(hù)的數(shù)據(jù)挖掘方法呈現(xiàn)多樣性?;陔[私保護(hù)的數(shù)據(jù)挖掘技術(shù)可從4個(gè)層面進(jìn)行分類:從數(shù)據(jù)的分布情況,可以分為原始數(shù)據(jù)集中式和分布式兩大類隱私保護(hù)技術(shù);從原始數(shù)據(jù)的隱藏情況,可以分為對(duì)原始數(shù)據(jù)進(jìn)行擾動(dòng)、替換和匿名隱藏等隱私保護(hù)技術(shù);從數(shù)據(jù)挖掘技術(shù)層面,可以分為針對(duì)分類挖掘、聚類挖掘、關(guān)聯(lián)規(guī)則挖掘等隱私保護(hù)技術(shù);從隱藏內(nèi)容層面,可以分為原始數(shù)據(jù)隱藏、模式隱藏。
5.數(shù)據(jù)挖掘集成技術(shù)
數(shù)據(jù)挖掘體系框架由三部分組成:數(shù)據(jù)準(zhǔn)備體系、建模與挖掘體系、結(jié)果解釋與評(píng)價(jià)體系。其中最為核心的部分是建模與挖掘體系,它主要是根據(jù)挖掘主題和目標(biāo),通過(guò)挖掘算法和相關(guān)技術(shù)(如統(tǒng)計(jì)學(xué)、人工智能、數(shù)據(jù)庫(kù)、相關(guān)軟件技術(shù)等),對(duì)數(shù)據(jù)進(jìn)行分析,挖掘出數(shù)據(jù)之間內(nèi)在的聯(lián)系和潛在的規(guī)律。大體上,數(shù)據(jù)挖掘應(yīng)用集成可分為幾類:數(shù)據(jù)挖掘算法的集成、數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)的集成、數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)的集成、數(shù)據(jù)挖掘與相關(guān)軟件技術(shù)的集成、數(shù)據(jù)挖掘與人工智能技術(shù)的集成等。
二、海量數(shù)據(jù)挖掘應(yīng)用廣泛但深度不足
2011年中國(guó)數(shù)據(jù)挖掘軟件市場(chǎng)規(guī)模達(dá)接近2億元,2012-2014年還將快速增長(zhǎng)。從數(shù)據(jù)挖掘應(yīng)用行業(yè)上看,國(guó)內(nèi)大多數(shù)的用戶都來(lái)自電信、銀行、保險(xiǎn)、稅務(wù)、政府等領(lǐng)域。應(yīng)用主題主要包含:消費(fèi)者行為分析、信用評(píng)分與風(fēng)險(xiǎn)管理、欺詐行為偵測(cè)、購(gòu)物籃分析等方面。目前,國(guó)內(nèi)數(shù)據(jù)挖掘應(yīng)用仍停留在初級(jí)階段,行業(yè)企業(yè)大規(guī)模的運(yùn)用數(shù)據(jù)挖掘技術(shù)尚需時(shí)日。
1.國(guó)內(nèi)數(shù)據(jù)挖掘應(yīng)用可分為3個(gè)層次
從數(shù)據(jù)挖掘應(yīng)用層次上看,大體可以分為三個(gè)層次:第一層次是把挖掘工具當(dāng)作單獨(dú)的工具來(lái)用,不用專門建設(shè)系統(tǒng);第二層次則是把數(shù)據(jù)挖掘模塊嵌入到系統(tǒng)中,成為部門級(jí)應(yīng)用;第三層次是企業(yè)級(jí)應(yīng)用,相當(dāng)于把挖掘系統(tǒng)作為整個(gè)企業(yè)運(yùn)營(yíng)的中央處理器。目前,國(guó)內(nèi)的數(shù)據(jù)挖掘應(yīng)用的企業(yè)基本處于第一層次,偶爾某些企業(yè)用戶能夠做到第二層次。
2.國(guó)內(nèi)有代表性的數(shù)據(jù)挖掘行業(yè)應(yīng)用情況簡(jiǎn)評(píng)
(1)通信業(yè):國(guó)內(nèi)應(yīng)用數(shù)據(jù)挖掘的企業(yè)還是以通信企業(yè)(移動(dòng)、聯(lián)通、電信)為首,應(yīng)用的深度和廣度都處于領(lǐng)先地位。
(2)互聯(lián)網(wǎng)企業(yè):隨著電子商務(wù)的普及,各大商務(wù)網(wǎng)站已經(jīng)大規(guī)模使用數(shù)據(jù)挖掘技術(shù),并且迅速?gòu)闹腥〉蒙虡I(yè)價(jià)值。例如,國(guó)內(nèi)很多網(wǎng)上商城已經(jīng)開(kāi)始使用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶聚類或者商品關(guān)聯(lián)推廣。另外,搜索引擎企業(yè)使用數(shù)據(jù)挖掘技術(shù)的需求也非常迫切。
(3)政府部門:我國(guó)政府部門中使用數(shù)據(jù)挖掘技術(shù)比較領(lǐng)先的是稅務(wù)系統(tǒng)。數(shù)據(jù)挖掘在電子政務(wù)中的應(yīng)用,更多的涉及到報(bào)表填制、數(shù)據(jù)統(tǒng)計(jì)。
(4)國(guó)內(nèi)金融行業(yè):操作型數(shù)據(jù)挖掘應(yīng)用在國(guó)內(nèi)金融行業(yè)應(yīng)用廣泛,尤其是信貸評(píng)審領(lǐng)域。中小型銀行數(shù)據(jù)挖掘需求將是未來(lái)金融行業(yè)數(shù)據(jù)挖掘市場(chǎng)的主要增長(zhǎng)點(diǎn)。未來(lái)5年時(shí)間里,數(shù)據(jù)挖掘應(yīng)用在金融行業(yè)仍將高速發(fā)展。
篇4
[關(guān)鍵詞]智能MCC 海上油田 海量數(shù)據(jù) 分級(jí)分層管理
中圖分類號(hào):T456 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2015)10-0380-01
引言
海上MCC為石油天然氣的開(kāi)采及平臺(tái)人員的生活提供生產(chǎn)、配電、管理保障,它的回路類型各異,回路個(gè)數(shù)及二次設(shè)備眾多,節(jié)點(diǎn)狀態(tài)及電氣、統(tǒng)計(jì)參數(shù)通過(guò)硬接線或現(xiàn)場(chǎng)總線的方式進(jìn)行數(shù)據(jù)傳輸。
智能MCC系統(tǒng)[1]對(duì)海上MCC所有回路節(jié)點(diǎn)及二次設(shè)備進(jìn)行電氣數(shù)據(jù)采集、統(tǒng)計(jì)數(shù)據(jù)分析、文件數(shù)據(jù)及維護(hù)信息更新,實(shí)現(xiàn)海上MCC的實(shí)時(shí)監(jiān)控、故障預(yù)警、快速定位、設(shè)備信息及全生命周期管理。該系統(tǒng)采集和存儲(chǔ)的相關(guān)數(shù)據(jù)量很大(對(duì)于單個(gè)海洋石油中心平臺(tái)來(lái)說(shuō),總的信息采集點(diǎn)數(shù)高達(dá)10000個(gè)左右),而實(shí)際的智能馬達(dá)保護(hù)器、多功能表等二次設(shè)備本身的通訊接口一般為現(xiàn)場(chǎng)總線,如DEVICENET[2],PROFIBUS,MODBUS等[3],都基于工業(yè)現(xiàn)場(chǎng)總線技術(shù),有一定的帶寬限制和節(jié)點(diǎn)數(shù)要求。同時(shí),智能MCC系統(tǒng)需要進(jìn)行存儲(chǔ)、統(tǒng)計(jì)分析和趨勢(shì)跟蹤。如此大量的數(shù)據(jù)如全部進(jìn)行統(tǒng)一處理,容易造成信息通道阻塞。
并且由于智能MCC系統(tǒng)不僅運(yùn)行在海上油田的局域網(wǎng)中,更運(yùn)行在陸地公網(wǎng)上,而海上油田網(wǎng)絡(luò)與陸地公網(wǎng)是通過(guò)微波傳輸,受寬帶限制,網(wǎng)絡(luò)實(shí)時(shí)容量低,這對(duì)于智能MCC系統(tǒng)的海量數(shù)據(jù)管理,也提出了苛刻要求。
本文介紹一種數(shù)據(jù)分級(jí)分層的管理機(jī)制,保證智能MCC系統(tǒng)對(duì)于基礎(chǔ)海量數(shù)據(jù)的穩(wěn)定采集、傳輸、分析、調(diào)用,避免系統(tǒng)信息通道的阻塞,實(shí)現(xiàn)了海上智能MCC系統(tǒng)的穩(wěn)定、可靠運(yùn)行。
正文
一 海上智能MCC系統(tǒng)海量基礎(chǔ)數(shù)據(jù)
為滿足海上油氣生產(chǎn)設(shè)施正常生產(chǎn)和運(yùn)維需求,智能MCC系統(tǒng)應(yīng)能通過(guò)上位機(jī)或者維護(hù)終端遠(yuǎn)程調(diào)節(jié)各從站設(shè)定值、特性曲線參數(shù)等。通過(guò)智能MCC系統(tǒng)完成的數(shù)據(jù)傳遞應(yīng)包括回路電氣實(shí)時(shí)參數(shù),如電流電壓功率等;相關(guān)設(shè)備的報(bào)警與預(yù)警信息,如過(guò)電流報(bào)警等;通過(guò)智能馬達(dá)保護(hù)器完成的設(shè)備診斷信息,如缺相和堵轉(zhuǎn)等;用于實(shí)時(shí)控制的模擬量數(shù)字化傳輸,如調(diào)速設(shè)備速度(頻率)給定;以及用于控制和保護(hù)的非實(shí)時(shí)參數(shù)整定值下發(fā),如對(duì)回路框架斷路器、智能馬達(dá)保護(hù)繼電器報(bào)警值設(shè)定、死區(qū)值設(shè)定[4]等。具體如下:
(1) 通過(guò)上位機(jī)遠(yuǎn)程測(cè)量各回路、各設(shè)備的電量參數(shù)如下:
主進(jìn)線電路:三相電流、三相電壓(相電壓/線電壓)、有功功率、無(wú)功功率、有功電度、功率因數(shù);
配電電路:三相電流、三相電壓(相電壓/線電壓)
動(dòng)力照明:三相電流
電動(dòng)機(jī)回路:三相/一相電流、三相電壓(相電壓/線電壓)、功率因數(shù)、有功功率;
補(bǔ)償回路;三相電壓(相電壓/線電壓)、功率因數(shù)(實(shí)際值/設(shè)定值);
其他:電網(wǎng)頻率、變壓器檔位,剩余電流。
(2)通過(guò)上位機(jī)或生產(chǎn)DCS(PCS)對(duì)各從站實(shí)現(xiàn)以下控制功能:
動(dòng)力中心電路:控制開(kāi)關(guān)的儲(chǔ)能、合閘、分閘;
配電回路:控制開(kāi)關(guān)的合閘、分閘;
電動(dòng)機(jī)控制電路:電動(dòng)機(jī)的啟動(dòng)、停車等操作;
補(bǔ)償電路:能選擇自動(dòng)/手動(dòng)補(bǔ)償。手動(dòng)方式下,遠(yuǎn)程可控制電容器、電抗器、APF的投切等;
有載調(diào)壓變壓器分接頭位置遠(yuǎn)程控制。
(3)通過(guò)上位機(jī)提供系統(tǒng)的各種信息資源,包括:
動(dòng)力中心電路:控制開(kāi)關(guān)的儲(chǔ)能、合閘、分閘;
配電回路:控制開(kāi)關(guān)的合閘、分閘;
電能管理、成本分析和負(fù)荷分析等;
變壓器分接頭位置。
另外,智能MCC系統(tǒng)還需要完成與生產(chǎn)工藝直接相關(guān)的如調(diào)速裝置頻率、電動(dòng)機(jī)負(fù)荷(電流、功率)等信號(hào)到DCS或生產(chǎn)控制系統(tǒng)的上傳;以及對(duì)特定的設(shè)備進(jìn)行自動(dòng)控制,并滿足控制的可靠性和足夠響應(yīng)時(shí)間要求。
為了完成設(shè)備的設(shè)備預(yù)警、智能診斷和快速故障定位,智能馬達(dá)保護(hù)器本身提供的回路熱過(guò)載、缺相、相間不平衡、過(guò)電流、堵轉(zhuǎn)、起動(dòng)超時(shí)、接地故障、頻繁起動(dòng)、電機(jī)PTC熱保護(hù)、接地故障、欠載、相序顛倒、過(guò)電壓、欠電壓、功率、功率因素、平均電流、相間電流不平衡率、熱容量、電機(jī)溫升等[5]保護(hù)和測(cè)量的信息也需要按照實(shí)際設(shè)備情況采集并歸納到智能MCC系統(tǒng)中。
同時(shí)為實(shí)現(xiàn)對(duì)所有電氣設(shè)備的全面管理,設(shè)備本身的電子化圖紙、規(guī)格參數(shù)、設(shè)計(jì)參數(shù)、額定參數(shù)、操作記錄、維修策略、檢維修記錄、運(yùn)轉(zhuǎn)時(shí)間和啟動(dòng)次數(shù)等信息也需要通過(guò)網(wǎng)絡(luò)或信息化系統(tǒng)進(jìn)行采集和管理。
二 海量數(shù)據(jù)分層分級(jí)管理機(jī)制設(shè)計(jì)
本系統(tǒng)制定如下數(shù)據(jù)分級(jí)分層管理原則:必要的實(shí)時(shí)數(shù)據(jù)和信息,稱為實(shí)時(shí)數(shù)據(jù),采用毫秒級(jí)進(jìn)行采集和管控;需要?jiǎng)討B(tài)更新但工藝決定不會(huì)發(fā)生瞬變的數(shù)據(jù)或只用來(lái)監(jiān)視不參與控制的數(shù)據(jù),稱為類實(shí)時(shí)數(shù)據(jù),按照秒級(jí)進(jìn)行數(shù)據(jù)傳輸;平常不需要進(jìn)行實(shí)時(shí)更新但需要和現(xiàn)場(chǎng)設(shè)備交互的數(shù)據(jù),稱為參數(shù)管理類數(shù)據(jù),在需要時(shí)才進(jìn)行傳輸和存儲(chǔ);統(tǒng)計(jì)分析類數(shù)據(jù)按照客戶實(shí)際需要可進(jìn)行調(diào)整。
通過(guò)分級(jí)分層管理可以大大提高網(wǎng)絡(luò)利用效率和關(guān)鍵數(shù)據(jù)傳輸?shù)目煽啃?,具體分類如下:
(1)實(shí)時(shí)數(shù)據(jù)
設(shè)備狀態(tài)、脫扣狀態(tài)、有功功率、無(wú)功功率、報(bào)警信息;
實(shí)時(shí)數(shù)據(jù)采樣周期為ms級(jí)別。
(2)類實(shí)時(shí)數(shù)據(jù)
三相電流、平均電流、接地電流、過(guò)載電流、平均過(guò)載電流、三相電壓、平均電壓、頻率、功率因素、電度;
脫扣數(shù)據(jù)記錄、報(bào)警數(shù)據(jù)記錄、熱容量;
類實(shí)時(shí)數(shù)據(jù)更新時(shí)間為秒級(jí)。
(3)參數(shù)管理類數(shù)據(jù)
過(guò)載報(bào)警值、接地報(bào)警值、堵轉(zhuǎn)報(bào)警值、欠載報(bào)警值、電流不平衡報(bào)警值、高/低電壓報(bào)警值、高/低電流報(bào)警值;
過(guò)載復(fù)位時(shí)間、過(guò)載脫扣時(shí)間、接地脫扣值、堵轉(zhuǎn)脫扣值、欠載脫扣值、電流不平衡脫扣值、高/低電壓報(bào)警使能、高/低電流報(bào)警使能;
參數(shù)管理類數(shù)據(jù)在需要時(shí)候才進(jìn)行傳送。
(4)統(tǒng)計(jì)分析類數(shù)據(jù)
起停次數(shù)統(tǒng)計(jì)、能耗統(tǒng)計(jì)、脫扣統(tǒng)計(jì)、報(bào)警統(tǒng)計(jì)、有功/無(wú)功統(tǒng)計(jì)。
另外通用的管理數(shù)據(jù)或通過(guò)信息系統(tǒng)下發(fā)的管理信息統(tǒng)稱管理類數(shù)據(jù),如設(shè)備規(guī)格參數(shù)、操作記錄、維修計(jì)劃、電子資料文件等,通過(guò)信息層網(wǎng)絡(luò)進(jìn)行傳輸管理,不再經(jīng)由現(xiàn)場(chǎng)數(shù)據(jù)總線。海量數(shù)據(jù)分層分級(jí)管理機(jī)制框圖見(jiàn)圖一所示。
三 海量數(shù)據(jù)分層分級(jí)管理機(jī)制應(yīng)用
(1)實(shí)時(shí)數(shù)據(jù)采集及網(wǎng)絡(luò)負(fù)荷率
本系統(tǒng)通過(guò)第三方機(jī)構(gòu)賽寶對(duì)實(shí)時(shí)數(shù)據(jù)的采集時(shí)間和網(wǎng)絡(luò)負(fù)荷率進(jìn)行測(cè)試,以馬達(dá)保護(hù)器的故障報(bào)警響應(yīng)時(shí)間為例:
報(bào)警響應(yīng)時(shí)間第一次測(cè)量結(jié)果:250ms;
報(bào)警響應(yīng)時(shí)間第一次測(cè)量結(jié)果:250ms;
報(bào)警響應(yīng)時(shí)間第一次測(cè)量結(jié)果:312ms;
報(bào)警響應(yīng)時(shí)間第一次測(cè)量結(jié)果:63ms;
報(bào)警響應(yīng)時(shí)間第一次測(cè)量結(jié)果:31ms;
報(bào)警響應(yīng)時(shí)間第一次測(cè)量結(jié)果:31ms;
報(bào)警響應(yīng)時(shí)間第一次測(cè)量結(jié)果:46ms;
報(bào)警響應(yīng)時(shí)間第一次測(cè)量結(jié)果:46ms;
報(bào)警響應(yīng)時(shí)間第一次測(cè)量結(jié)果:47ms;
報(bào)警響應(yīng)時(shí)間第一次測(cè)量結(jié)果:74ms。
智能MCC系統(tǒng)網(wǎng)絡(luò)負(fù)荷率為17.12KB/s~21.38KB/s。
(2)參數(shù)管理類數(shù)據(jù)的按用戶需求進(jìn)行交互
圖二為海上MCC回路斷路器電流整定值、散熱時(shí)間及保護(hù)類型的交互界面,這些參數(shù)是參數(shù)管理類數(shù)據(jù),按照用戶需求進(jìn)行交互。用戶可以查看或更改該設(shè)備此類型參數(shù)。
(3) 其他管理類數(shù)據(jù)的傳輸、存儲(chǔ)
海上油田智能MCC系統(tǒng)對(duì)于底層設(shè)備進(jìn)行了臺(tái)帳、設(shè)備檢維修管理及電子資料管理等,這些設(shè)備的臺(tái)帳、檢維修信息通過(guò)數(shù)據(jù)庫(kù)協(xié)議等進(jìn)行信息的傳輸、存儲(chǔ),并且為了不影響數(shù)據(jù)庫(kù)檢索響應(yīng)速度,智能MCC系統(tǒng)電子資料管理中的文件數(shù)據(jù)通過(guò)FTP協(xié)議進(jìn)行傳輸、存儲(chǔ)[6]。
圖三為智能MCC系統(tǒng)軟件設(shè)備電子資料模塊的交互界面。
4 總結(jié)
海上油田智能MCC系統(tǒng)的海量數(shù)據(jù)管理機(jī)制的設(shè)計(jì),梳理了智能MCC系統(tǒng)不同類型數(shù)據(jù)的采集、傳輸、存儲(chǔ)機(jī)制及存儲(chǔ)途徑,并通過(guò)了現(xiàn)場(chǎng)應(yīng)用與測(cè)試。該方法能夠保證智能MCC系統(tǒng)在海上、陸地運(yùn)行時(shí)的穩(wěn)定、可靠性。
參考文獻(xiàn)
[1]魏澈,王國(guó)朝. 海上IMCC系統(tǒng)設(shè)計(jì)綜述[J]. 電子技術(shù)與軟件工程,2014(15):95-97.
[2] 佟為明,陳向陽(yáng),李風(fēng)閣,吳S.DeviceNet現(xiàn)場(chǎng)總線技術(shù)[J].微處理機(jī),2002(6):1-3.
[3] 劉建昌,左云,錢曉龍,陳智鋒,馮立. 現(xiàn)場(chǎng)總線概述[J].基礎(chǔ)自動(dòng)化,2000,7(6):1-5.
[4]郭宏,于凱平. 電機(jī)控制中心綜述[J].電氣傳動(dòng),2006(3):8-10.
[5] Cleaveland Peter. Smart Motor Control Center has Built-in DeviceNet Communications, Software for Monitoring and Control[J]. I&CS Instrumentation & Control Systems,2000,73(3):58-60.
篇5
知道淘寶每天產(chǎn)生的交易數(shù)據(jù)量有多少嗎?知道電信運(yùn)營(yíng)商們的業(yè)務(wù)數(shù)據(jù)量已經(jīng)達(dá)到什么數(shù)量級(jí)了嗎?知道熱盼的智能電網(wǎng)落地后會(huì)新增多少數(shù)據(jù)嗎?
數(shù)據(jù)爆炸催熟分析型數(shù)據(jù)庫(kù)
在這個(gè)數(shù)據(jù)不斷膨脹的時(shí)代,企業(yè)數(shù)據(jù)量從過(guò)去的MB到GB再到TB,增長(zhǎng)到現(xiàn)在的PB級(jí)數(shù)據(jù)規(guī)模。過(guò)去多年來(lái),中國(guó)企業(yè)非常重視基礎(chǔ)和應(yīng)用建設(shè),其結(jié)果是產(chǎn)生了大量的數(shù)據(jù)。如果這些數(shù)據(jù)不能體現(xiàn)價(jià)值,IT從業(yè)人員會(huì)遭受到巨大的壓力。
而大多數(shù)數(shù)據(jù)庫(kù)的性能隨著所管理的數(shù)據(jù)量的增加,性能會(huì)急劇下降,傳統(tǒng)的OLTP數(shù)據(jù)庫(kù)在處理海量數(shù)據(jù)時(shí)遭遇瓶頸,于是分析型數(shù)據(jù)庫(kù)登臺(tái)亮相。
分析型數(shù)據(jù)庫(kù)是在海量數(shù)據(jù)中心、企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)、企業(yè)數(shù)據(jù)云的背景下分化出來(lái)的一個(gè)細(xì)分市場(chǎng),這個(gè)市場(chǎng)從被明確出來(lái)的那一刻起,就發(fā)展得異常迅速。
都說(shuō)分析型數(shù)據(jù)庫(kù)時(shí)代來(lái)臨,那到底什么是分析型數(shù)據(jù)庫(kù),和傳統(tǒng)的數(shù)據(jù)庫(kù)有什么區(qū)別呢?分析型數(shù)據(jù)庫(kù)廠商Greenplum業(yè)務(wù)總監(jiān)陳昌騰向記者介紹說(shuō),傳統(tǒng)數(shù)據(jù)庫(kù)側(cè)重交易處理,關(guān)注的是多用戶的同時(shí)讀寫(xiě)操作,在保障即時(shí)性的前提下,處理數(shù)據(jù)的分配、讀寫(xiě)等操作,存在I/O瓶頸。而分析型數(shù)據(jù)庫(kù)是以實(shí)時(shí)多維分析技術(shù)作為基礎(chǔ),對(duì)數(shù)據(jù)進(jìn)行多個(gè)角度的模擬和歸納,從而得出數(shù)據(jù)里面包含的信息和知識(shí),當(dāng)面對(duì)海量數(shù)據(jù)時(shí),數(shù)據(jù)庫(kù)首先要克服I/O瓶頸。
企業(yè)采用分析型數(shù)據(jù)庫(kù)技術(shù)有無(wú)數(shù)的理由。TDWI Research的高級(jí)經(jīng)理Philip Russom認(rèn)為,其中一個(gè)很重要的原因,就是數(shù)據(jù)分析的使用越來(lái)越頻繁,而其復(fù)雜度卻越來(lái)越高。一種被Russom和其他專家稱為“高級(jí)分析”的技術(shù)目前十分火熱,它描述了特別復(fù)雜的――通常是SQL驅(qū)動(dòng)的查詢或者預(yù)測(cè)分析技術(shù)的使用。毫無(wú)例外,分析型數(shù)據(jù)庫(kù)專家都將MPP(Massively Parallel Processing,平臺(tái)海量并行處理服務(wù)器)作為高級(jí)分析的一個(gè)必要條件。
Russom認(rèn)為傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是無(wú)法完成針對(duì)海量數(shù)據(jù)的分析任務(wù)的,他引用TDWI的一份調(diào)查來(lái)說(shuō)明:調(diào)查顯示有40%的受訪者對(duì)他們現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的分析能力表示擔(dān)心,有51%的受訪者表示計(jì)劃在接下來(lái)的5年時(shí)間里,啟動(dòng)分析型數(shù)據(jù)庫(kù)平臺(tái)。
讓用戶在幾秒內(nèi)得到查詢結(jié)果
高性能的大規(guī)模數(shù)據(jù)處理能力是DBA對(duì)數(shù)據(jù)庫(kù)夢(mèng)寐以求的能力之一。從字面上不難看出,“高性能的大規(guī)模數(shù)據(jù)處理能力”,一方面是針對(duì)“大規(guī)模的數(shù)據(jù)”,另一方面就是“數(shù)據(jù)的處理”。前者需要的是數(shù)據(jù)吞吐能力,就是所謂的I/O;后者需要的是并行計(jì)算能力,即充分利用軟硬件資源最大化運(yùn)行任務(wù)及進(jìn)程,這也就是像Greenplum這樣的高性能數(shù)據(jù)倉(cāng)庫(kù)引擎追求高效的兩個(gè)途徑。
Russom認(rèn)為,高級(jí)分析技術(shù)轉(zhuǎn)為主要依靠復(fù)雜或?qū)Φ鹊腟QL語(yǔ)句實(shí)現(xiàn),這讓傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)查詢性能差的缺點(diǎn)更加突出。很多企業(yè)都認(rèn)為“查詢響應(yīng)慢”是影響他們部署數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)產(chǎn)品的決定性因素。
在這方面,分析型數(shù)據(jù)庫(kù)專家特別喜歡用傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)做對(duì)比,例如主流的Oracle、SQL Server或者DB2。分析型數(shù)據(jù)庫(kù)廠商紛紛宣稱自己的產(chǎn)品可以讓用戶在幾秒鐘內(nèi),甚至幾百毫秒內(nèi)就得到想要的查詢結(jié)果。人們通常關(guān)注一些類型的查詢,這些查詢也許是需要頻繁交互的,或者有非常多的用戶,反正需要使用非常復(fù)雜的查詢語(yǔ)句,并且需要在幾秒鐘內(nèi)就得到結(jié)果,人們無(wú)法容忍幾十分鐘甚至數(shù)個(gè)小時(shí)的等待。
“Greenplum的海量數(shù)據(jù)查詢速度可以比傳統(tǒng)的數(shù)據(jù)庫(kù)快20倍?!盙reenplum大中華區(qū)總裁周金輝說(shuō),“其實(shí)20倍是一個(gè)保守?cái)?shù)字,因?yàn)榇蠖鄶?shù)的實(shí)際測(cè)試結(jié)果都顯示,查詢速度之比都在20至50倍之間?!敝芙疠x在IT行業(yè)從業(yè)25年以上,曾在Oracle公司工作16年,擔(dān)任亞太區(qū)副總裁。周金輝表示考慮到客戶環(huán)境的差異、應(yīng)用場(chǎng)景的復(fù)雜性,Greenplum認(rèn)為20倍是完全可以保障的。但他同時(shí)表示,這一結(jié)果目前僅僅是在一些既有的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用案例中比較得出的。
陳昌盛向記者解釋說(shuō),之所以能做到如此,有三個(gè)原因:一是Greenplum的并行處理技術(shù),創(chuàng)造出了前所未有的高性能,初接觸的客戶會(huì)感受到完全不同的震撼;二是Greenplum的分布式架構(gòu)設(shè)計(jì),使得用戶可以無(wú)限線性擴(kuò)展所管理的數(shù)據(jù),完全消除海量數(shù)據(jù)的壓力;三是 Greenplum的開(kāi)放平臺(tái)設(shè)計(jì),確保在低端的PC服務(wù)器實(shí)現(xiàn)高性能,這顯著降低了用戶的使用門檻,與市場(chǎng)正在形成的需求形成良性互動(dòng)。
Greenplum試進(jìn)入中國(guó)大約一年的時(shí)間,已經(jīng)簽約了16家客戶,平均每個(gè)月都能夠簽約一家多,這樣的簽約速度在企業(yè)級(jí)軟件市場(chǎng)是非??斓?因?yàn)榭蛻魪牧私?、熟悉到做決定一般都至少需要3個(gè)月的時(shí)間。Greenplum的簽約時(shí)間短,也說(shuō)明了客戶對(duì)Greenplum的信心比較足。陳昌盛補(bǔ)充說(shuō),Greenlpum所管理的數(shù)據(jù)是無(wú)限擴(kuò)充的;而且更為重要的是,目前所有的系統(tǒng)擴(kuò)容都需要停機(jī),但是Greenplum卻可以擴(kuò)容不損失任何業(yè)務(wù)時(shí)間。
工作量管理是否有必要
有意思的是,Greenplum和其他分析型數(shù)據(jù)庫(kù)廠商,都特別熱衷于把Teradata作為對(duì)比對(duì)象。與一些傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)廠商相比,Teradata的工作量管理(WLM)能力是非常出色的。
當(dāng)然,也有一些分析型數(shù)據(jù)庫(kù)廠商宣稱能夠改善工作量管理特性,例如Aster Data Systems公司,他們表示其產(chǎn)品可以與Teradata的Active Systems Management(TASM)相媲美。Vertica公司負(fù)責(zé)市場(chǎng)的副總裁Dave Menninger也表示,Vertica在其最新產(chǎn)品Vertica 3.5版本中,引入了加強(qiáng)的WLM功能。大部分的分析型數(shù)據(jù)庫(kù)廠商,都會(huì)主要強(qiáng)調(diào)MPP速度和并行處理能力的優(yōu)勢(shì)。
Teradata公司負(fù)責(zé)產(chǎn)品與服務(wù)市場(chǎng)的副總裁Randy Lea表示:“工作量管理是相當(dāng)復(fù)雜的,我們依然在持續(xù)改進(jìn)其功能,為客戶提供大量個(gè)性化的服務(wù)。”他認(rèn)為,他們的目標(biāo)是戰(zhàn)略層次上的,而大部分的分析型數(shù)據(jù)庫(kù)平臺(tái)的實(shí)現(xiàn)只是停留在戰(zhàn)術(shù)層面上。Lea說(shuō),在戰(zhàn)術(shù)層面上,工作量管理也許并沒(méi)有那么重要,最多你可以對(duì)使用系統(tǒng)的用戶做一些限制,而對(duì)于企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù),情況則要復(fù)雜得多。
“即使是非常簡(jiǎn)單的數(shù)據(jù)需求,我依然會(huì)制定一些業(yè)務(wù)規(guī)則,并予以實(shí)現(xiàn)。例如,CEO的請(qǐng)求應(yīng)該具有最高優(yōu)先級(jí)。這可能是一種好的策略?!彼忉屨f(shuō),“我們完全可以根據(jù)時(shí)間、查詢結(jié)果、用戶或者應(yīng)用,來(lái)實(shí)現(xiàn)我們的業(yè)務(wù)規(guī)則,從而最好地實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的效用?!?/p>
“如果你遵從統(tǒng)一的平臺(tái)模型,并且需要為一部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)任務(wù)提供良好的實(shí)時(shí)SLA保障,那么工作量管理是很有用的?!弊稍児綯hird Nature的資深數(shù)據(jù)倉(cāng)庫(kù)體系架構(gòu)專家Mark Madsen說(shuō)。他認(rèn)為,現(xiàn)在需要建設(shè)數(shù)據(jù)倉(cāng)庫(kù)的公司,需要在無(wú)所不包、自頂向下和松散耦合、自底向上兩種方法之間作出選擇。
篇6
關(guān)鍵詞:云計(jì)算 航空影像 數(shù)據(jù)處理 構(gòu)架
中圖分類號(hào):P23 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2014)03(c)-0005-02
隨著攝影測(cè)量手段和信息獲取技術(shù)的發(fā)展,航空影像數(shù)據(jù)的獲取周期越來(lái)越短,航空影像數(shù)據(jù)的更新頻率越來(lái)越快。對(duì)于海量遙感數(shù)據(jù)快速處理以達(dá)到實(shí)現(xiàn)快速響應(yīng)機(jī)制,傳統(tǒng)的攝影測(cè)量數(shù)據(jù)處理平臺(tái)已經(jīng)不能滿足當(dāng)前的生產(chǎn)需求。因此,如何快速、高效地處理這些影像數(shù)據(jù),以及如何迅速的從影像數(shù)據(jù)中獲取用戶所需的基本信息(如概貌、土地的分類、土地利用情況、植被分布、水系的分布和變化,災(zāi)害區(qū)的范圍等)是一個(gè)值得研究并且急需解決的問(wèn)題,也是建立遙感快速響應(yīng)機(jī)制領(lǐng)域的一個(gè)重要的應(yīng)用和發(fā)展方向。
本文將云計(jì)算模型處理的技術(shù)引入影像數(shù)據(jù)處理中,設(shè)計(jì)了基于云計(jì)算的海量影像數(shù)據(jù)的云處理模型。
1 云計(jì)算模型構(gòu)架
云計(jì)算的關(guān)鍵是如何實(shí)現(xiàn)大規(guī)模地連接到更加廣泛的服務(wù)器甚至個(gè)人計(jì)算機(jī),使這些計(jì)算機(jī)并行運(yùn)行,各自的資源結(jié)合起來(lái)形成足可比擬超級(jí)計(jì)算機(jī)的計(jì)算能力。我們可以通過(guò)個(gè)人電腦或便攜設(shè)備,經(jīng)由因特網(wǎng)連接到云中。對(duì)用戶端來(lái)說(shuō),云是一個(gè)獨(dú)立的應(yīng)用、設(shè)備或文件,云中的硬件是不可見(jiàn)的,如圖1所示。
它的過(guò)程是這樣的:首先,用戶的請(qǐng)求被發(fā)送給系統(tǒng)管理,系統(tǒng)管理找出正確的資源并調(diào)用合適的系統(tǒng)服務(wù)。這些服務(wù)從云中劃分必要的資源,加載相應(yīng)的Web應(yīng)用程序,創(chuàng)建或打開(kāi)所要求的文件。Web應(yīng)用啟動(dòng)后,系統(tǒng)的監(jiān)測(cè)和計(jì)量功能會(huì)跟蹤云資源的使用,確保資源分配和歸屬于合適的用戶。
2 云計(jì)算處理模型的運(yùn)行機(jī)制
基于云計(jì)算模型的影像數(shù)據(jù)處理模型是在傳統(tǒng)的影像數(shù)據(jù)處理流程的基礎(chǔ)上,突破了傳統(tǒng)的計(jì)算模式,使用了云計(jì)算強(qiáng)大的計(jì)算資源來(lái)完成整個(gè)數(shù)據(jù)處理中的大量的數(shù)字運(yùn)算。其中包括任務(wù)的分發(fā)、云端處理以及處理完數(shù)據(jù)的集中和影像的鑲嵌等操作。
2.1 云處理模型的體系結(jié)構(gòu)
圖2為基于云計(jì)算模型的影像數(shù)據(jù)處理系統(tǒng)的體系結(jié)構(gòu)。云工作站負(fù)責(zé)管理和分發(fā)任務(wù),云端處理服務(wù)器依據(jù)分發(fā)的任務(wù),從云存儲(chǔ)中取出影像進(jìn)行相應(yīng)的處理,通過(guò)TCP/IP通信協(xié)議與服務(wù)器建立通訊。當(dāng)對(duì)應(yīng)的云端處理服務(wù)器(可以是大型的計(jì)算機(jī)業(yè)可以使微型的個(gè)人機(jī))接收到任務(wù)時(shí),通過(guò)調(diào)用系統(tǒng)的計(jì)算資源進(jìn)行相應(yīng)的處理服務(wù),同時(shí)通過(guò)云端系統(tǒng)之間的相互通信可以實(shí)現(xiàn)一些軟件資源的共享等。
2.2 云處理模型的工作流程
圖3為基于云計(jì)算模型的影像數(shù)據(jù)處理系統(tǒng)的一般的工作流程,主要包括任務(wù)表的創(chuàng)建與分發(fā),云端系統(tǒng)的具體的處理過(guò)程以及數(shù)據(jù)成品的集中和影像的鑲嵌。 利用云計(jì)算強(qiáng)大的計(jì)算資源來(lái)完成其中涉及到的巨大的運(yùn)算要求。
3 基于云計(jì)算的航空影像處理模型
在這個(gè)模型系統(tǒng)中,主要包括數(shù)據(jù)的預(yù)處理和專題信息的提取。在后期的制圖過(guò)程中主要包括地圖信息的符號(hào)化和綜合。
3.1 預(yù)處理
遙感圖像的預(yù)處理主要包括幾何校正和輻射校正,還包括其他的預(yù)處理手段,如圖4所示。遙感圖像成圖時(shí),由于各種因素的影響,圖像本身的幾何形狀與其對(duì)應(yīng)的地物形狀往往是不一致的。遙感圖像的幾何變形是指圖像上各地物的幾何位置、形狀、尺寸、方位等特征與在參考系統(tǒng)中的表達(dá)要求不一致時(shí)產(chǎn)生的變形。遙感圖像的變形誤差可以分為靜態(tài)誤差和動(dòng)態(tài)誤差兩大類。靜態(tài)誤差是在成像的過(guò)程中,傳感器相對(duì)于地球表面呈精致?tīng)顟B(tài)時(shí)所產(chǎn)生的各種變形誤差。動(dòng)態(tài)誤差主要是成像過(guò)程中由于地球的旋轉(zhuǎn)等因素所造成的圖像變形誤差。遙感圖像的幾何處理主要包括圖像的粗加工、精糾正,還包括重采樣以及共線方程的糾正的。
由于航空影像成像過(guò)程的復(fù)雜性,傳感器接收到的電磁波能量與目標(biāo)本身輻射的能量是不一致的。傳感器輸出的能量包含了太陽(yáng)位置和角度條件、大氣條件、地形影響和傳感器本身的性能所引起的各種失真,這些失真不是地面目標(biāo)本身的輻射,因此,對(duì)圖像的使用和理解會(huì)造成影響,必須加以校正或消除。輻射校正就是指消除或改正遙感圖像成像過(guò)程中附加在傳感器輸出的輻射能量中的各種噪聲的過(guò)程。
在影像數(shù)據(jù)制圖中,數(shù)據(jù)的收集一般包括遙感影像數(shù)據(jù)的收集和其他非空間數(shù)據(jù)的收集,在充分收集歷史和當(dāng)前數(shù)據(jù)的基礎(chǔ)上要對(duì)于資料進(jìn)行初步的整理。數(shù)據(jù)的預(yù)處理主要包括影像數(shù)據(jù)的幾何處理和輻射校正。預(yù)處理的云處理模型已經(jīng)在之前介紹過(guò)了。
3.2 中期操作
在傳統(tǒng)的遙感影像專題信息提取中,主要包括影像數(shù)據(jù)的格式轉(zhuǎn)化,圖像的增強(qiáng)和均衡化、波段的融合、糾正等,文本資料的分類,地圖信息的分析,同時(shí)在信息的提取中有監(jiān)督法分類和非監(jiān)督法分類,以及分類后處理等操作。在基于云計(jì)算模型的遙感影像處理系統(tǒng)中,上述的操作方法不變,變化的是計(jì)算的模式。傳統(tǒng)的處理模式是串行的處理,基于云計(jì)算的遙感影像處理模式主要是利用云端系統(tǒng)強(qiáng)大的計(jì)算資源實(shí)現(xiàn)影像的實(shí)時(shí)處理。
在完成任務(wù)的分發(fā)后,相應(yīng)的云端通過(guò)直接的相互通信,能夠下載相應(yīng)的處理模塊所需的軟件和模塊,同時(shí)按照當(dāng)前服務(wù)器的計(jì)算資源狀況完成相應(yīng)的處理和任務(wù)的分發(fā)等。
3.3 后期操作
后期的專題地圖的制作中主要包括地圖信息的綜合,按照專題的信息決定地圖信息的取舍,突出重點(diǎn)的專題,省略其他無(wú)關(guān)的要素,符號(hào)化的過(guò)程主要依據(jù)可視化和視覺(jué)美學(xué)等知識(shí)進(jìn)行取舍,其中涉及到大量的計(jì)算任務(wù)仍然放到云端來(lái)完成。影像數(shù)據(jù)的處理一般包括格式轉(zhuǎn)換、圖像的增強(qiáng)、均衡化、波段的融合等,在影像數(shù)據(jù)的應(yīng)用上主要有信息的提取、分類、專題圖的制作等。
4 結(jié)論
云計(jì)算是一種顛覆性的技術(shù)具有深刻意義,不僅對(duì)互聯(lián)網(wǎng)服務(wù),而且對(duì)這個(gè)IT 業(yè)都是一次革命。將它應(yīng)用在航空影像數(shù)據(jù)處理領(lǐng)域更是一種大膽的嘗試,作為航空影像數(shù)據(jù)處理專業(yè)領(lǐng)域,如何進(jìn)行海量數(shù)據(jù)存儲(chǔ)與處理、系統(tǒng)的擴(kuò)展與開(kāi)放等是該領(lǐng)域長(zhǎng)期的瓶頸,云計(jì)算的出現(xiàn)給解決這些問(wèn)題帶來(lái)了希望。本文詳細(xì)探討了遙感云計(jì)算的系統(tǒng)構(gòu)成和實(shí)現(xiàn)方法,并以一個(gè)具體的原型系統(tǒng)展現(xiàn)了航空影像云計(jì)算模式的用戶界面、技術(shù)手段和運(yùn)行流程。
參考文獻(xiàn)
篇7
傳統(tǒng)大數(shù)據(jù)保護(hù)方案海量難題
IT系統(tǒng)運(yùn)維的有效性將直接關(guān)系到企業(yè)能否正常運(yùn)行。數(shù)據(jù)量暴增、應(yīng)用的愈加復(fù)雜卻使大型用戶的數(shù)據(jù)中心、共享災(zāi)備中心等環(huán)境成為了大數(shù)據(jù)問(wèn)題的重災(zāi)區(qū)。
首先,海量數(shù)據(jù)卷導(dǎo)致備份時(shí)間延長(zhǎng),企業(yè)往往被迫采用復(fù)雜的快照和腳本方法,因此恢復(fù)操作極其復(fù)雜、耗時(shí)。
其次,大多數(shù)企業(yè)在其所分配的備份時(shí)間中無(wú)法完成完全或者增量備份;而主要應(yīng)用程序的磁帶備份連續(xù)寫(xiě)入方式需要更高的網(wǎng)絡(luò)和處理器能力以及更多的時(shí)間;另外,傳統(tǒng)的保護(hù)模式制約服務(wù)器虛擬化項(xiàng)目和云技術(shù)的啟動(dòng)及實(shí)施;邊緣數(shù)據(jù)無(wú)法得到系統(tǒng)保護(hù);耗費(fèi)時(shí)間“堆砌”在一起的大量單點(diǎn)產(chǎn)品導(dǎo)致管理備份活動(dòng)極其困難;數(shù)據(jù)恢復(fù)既緩慢又不細(xì)化,缺乏確定性;無(wú)法實(shí)現(xiàn)完全的分層存儲(chǔ)。
再次,傳統(tǒng)的備份方法不能全局性地解決冗余數(shù)據(jù)激增的問(wèn)題,這一問(wèn)題會(huì)導(dǎo)致對(duì)網(wǎng)絡(luò)、存儲(chǔ)和管理資源的過(guò)度消耗。這限制了企業(yè)恢復(fù)和使用受保護(hù)數(shù)據(jù)的能力,增加了數(shù)據(jù)恢復(fù)和查找所需的時(shí)間。
全新IaaS架構(gòu)創(chuàng)新TxCloud突破大數(shù)據(jù)保護(hù)容量瓶頸
所幸,愛(ài)數(shù)推出了TxCloud云柜,這款為大中型數(shù)據(jù)中心提供一體化備份容災(zāi)云計(jì)算解決方案的大機(jī)柜,將有效解決這個(gè)難題,并結(jié)合法規(guī)遵從管理理念,將IT管理目標(biāo)與企業(yè)管理目標(biāo)有效結(jié)合,提升數(shù)據(jù)的業(yè)務(wù)價(jià)值,輕松構(gòu)建私有云。然而,TxCloud云柜為何能在大數(shù)據(jù)時(shí)代立足?
云概念的興起使IaaS架構(gòu)廣為人知,而云柜便是基于IaaS的底層架構(gòu)來(lái)建設(shè),在IaaS架構(gòu)之上搭建應(yīng)用的。正是基于此,TxCloud云柜才可在大數(shù)據(jù)中乘風(fēng)破浪。
首先,IaaS的底層架構(gòu)實(shí)現(xiàn)了對(duì)底層物力資源的抽象,使其成為一個(gè)個(gè)可以被靈活生成、調(diào)度、管理的基礎(chǔ)資源單位。這樣便可以以服務(wù)化的方式向上層提供資源。
其次,TxCloud云柜的IaaS底層架構(gòu)將會(huì)做分布式存儲(chǔ),使未來(lái)存儲(chǔ)擴(kuò)展更方便。云柜定位于大數(shù)據(jù)時(shí)代的備份容災(zāi),而誰(shuí)都無(wú)法預(yù)測(cè)到大數(shù)據(jù)時(shí)代的備份容量要求,因此存儲(chǔ)的擴(kuò)展性對(duì)云柜的意義非凡。
再次,IaaS的服務(wù)化使得添加新應(yīng)用更方便,同樣為TxCloud云柜應(yīng)對(duì)大數(shù)據(jù)提供支持。
正是由于引入了IaaS架構(gòu),TxCloud云柜才會(huì)具有更良好的擴(kuò)展性以及更大的備份存儲(chǔ)容量?,F(xiàn)在TxCloud云柜最多支持18個(gè)備份容災(zāi)節(jié)點(diǎn),共可提供432TB的物理容量。但I(xiàn)aaS架構(gòu)的功能并不僅限于此,TxCloud云柜將更具可持續(xù)發(fā)展性和可持續(xù)擴(kuò)展性。
重復(fù)數(shù)據(jù)刪除技術(shù)完美嵌入
大數(shù)據(jù)保護(hù)無(wú)懼海量難題
重復(fù)數(shù)據(jù)刪除技術(shù)不再新鮮。然而,愛(ài)數(shù)一體化容災(zāi)技術(shù)體系中的源端重復(fù)數(shù)據(jù)刪除技術(shù),其重刪比最高可達(dá)99%,能夠有效控制因備份而產(chǎn)生的重復(fù)數(shù)據(jù)的快速增長(zhǎng)。
愛(ài)數(shù)將源端重復(fù)刪除技術(shù)完美嵌入TxCloud云柜后,用戶備份的次數(shù)越多,其實(shí)際數(shù)據(jù)與邏輯數(shù)據(jù)間的比例就越小。如:用戶第一次備份10TB數(shù)據(jù),而第二次備份時(shí)只變化了其中的2TB,從用戶角度而言,兩次完全備份服務(wù)端就需保存20TB的數(shù)據(jù),但基于愛(ài)數(shù)源端重復(fù)刪除技術(shù),服務(wù)端實(shí)際只會(huì)存放12TB的數(shù)據(jù)。因此,基于云柜本身的屬性,最多可提供432TB的物理容量,再除以重刪率(約1/9),即可以使最終的邏輯容量達(dá)到3.5PB之多。
篇8
關(guān)鍵詞:海量數(shù)據(jù)存儲(chǔ);分布式數(shù)據(jù)庫(kù);MPP架構(gòu);并行處理
目前海量數(shù)據(jù)處理還是一個(gè)比較新的研究方向,大多數(shù)都是各公司或者是組織各自研究自己的處理方法,國(guó)際上沒(méi)有通用的標(biāo)準(zhǔn),研究的方式和結(jié)果也都是各有千秋。針對(duì)項(xiàng)目中帶有復(fù)雜業(yè)務(wù)邏輯的海量數(shù)據(jù)存儲(chǔ),主要從容量擴(kuò)展和并行處理兩個(gè)方面考慮。前文己論述過(guò)NoSQL分布式數(shù)據(jù)庫(kù)由于其數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單、不善于做JOIN連接等復(fù)雜操作,存在數(shù)據(jù)遷移問(wèn)題,并不適用于本項(xiàng)目,所以本解決方案依舊從關(guān)系型數(shù)據(jù)庫(kù)入手。其次為了支持多樣的切分策略,本論文將實(shí)現(xiàn)range、list、consis
tent-hash模式。最后系統(tǒng)借鑒MPP并行處理架構(gòu),使得整個(gè)項(xiàng)目能部署在便宜的PC集群上,不僅能保證穩(wěn)定性,還節(jié)省項(xiàng)目成本。
物理設(shè)施包含數(shù)據(jù)庫(kù)服務(wù)器的基礎(chǔ)架構(gòu)、web服務(wù)器的選擇,以及資源分配管理服務(wù)器的選擇。這三者分別負(fù)責(zé)數(shù)據(jù)的存取、數(shù)據(jù)的分析處理以及資源工作的均衡分配,它們協(xié)同合作,共同搭建一個(gè)高效的協(xié)同的后端服務(wù)管理,使存儲(chǔ)系統(tǒng)均衡工作、高效運(yùn)行。
作為解決海量數(shù)據(jù)的存儲(chǔ)方案,首要必須考慮是存放海量數(shù)據(jù)的需求。根據(jù)前文可知,分布式數(shù)據(jù)庫(kù)的出現(xiàn)其根本原因是解決存放不下數(shù)據(jù)的問(wèn)題,故而將數(shù)據(jù)依照策略存放在不同的數(shù)據(jù)庫(kù)服務(wù)器上,存放數(shù)據(jù)的策略以及數(shù)據(jù)之間的并行查詢處理是研究的重點(diǎn)。第二個(gè)問(wèn)題是分布式處理方案,現(xiàn)有技術(shù)從各個(gè)方面進(jìn)行過(guò)嘗試,有的基于關(guān)系型數(shù)據(jù)庫(kù)提出了多種shard
ing方案。將關(guān)系型數(shù)據(jù)庫(kù)遷移到非關(guān)系型數(shù)據(jù)庫(kù)上代價(jià)太大,所以本解決方案基于關(guān)系型數(shù)據(jù)庫(kù)的系統(tǒng)。
根據(jù)以上的設(shè)計(jì)思路與實(shí)現(xiàn)目標(biāo),設(shè)計(jì)出分布式海量數(shù)據(jù)存儲(chǔ)解決方案。該系統(tǒng)主要包含以下四個(gè)模塊:
SQL解析模塊。SQL語(yǔ)句復(fù)雜、格式多樣、形式多變,解析結(jié)果作為數(shù)據(jù)切分的依據(jù)。解析SQL語(yǔ)句的方法是編譯成字節(jié)碼,生成語(yǔ)法樹(shù),這種方式的優(yōu)點(diǎn)是準(zhǔn)確率高、數(shù)據(jù)層次清晰、結(jié)構(gòu)正確,但設(shè)計(jì)到相關(guān)語(yǔ)法樹(shù)知識(shí),比解析字符串更難以理解。
數(shù)據(jù)分發(fā)模塊。如果集群系統(tǒng)中沒(méi)有進(jìn)行數(shù)據(jù)切分,則多臺(tái)數(shù)據(jù)庫(kù)服務(wù)器存儲(chǔ)的是完全一樣的數(shù)據(jù),這實(shí)際上是對(duì)硬件資源的浪費(fèi),也在同步數(shù)據(jù)保持一致上浪費(fèi)了更多的時(shí)間和效能。而且一旦數(shù)據(jù)再上升一個(gè)等級(jí),很可能一臺(tái)服務(wù)器就無(wú)法存儲(chǔ)下大量數(shù)據(jù)。所以合適的數(shù)據(jù)切分策略是遲早的,本解決方案將結(jié)合現(xiàn)有的數(shù)據(jù)切分策略,結(jié)合業(yè)務(wù)邏輯,提供多樣的切分策略,并且預(yù)留切分接口使用戶靈活地自定義自實(shí)現(xiàn),系統(tǒng)的可用性更高。
并行處理模塊。由分發(fā)服務(wù)器和多臺(tái)數(shù)據(jù)庫(kù)服務(wù)器構(gòu)成。相對(duì)于集中式數(shù)據(jù)庫(kù)來(lái)說(shuō),分布式詢代價(jià)需要考慮以下因素:
CPU處理時(shí)間,I/O消耗時(shí)間,還有數(shù)據(jù)在網(wǎng)絡(luò)上的傳輸時(shí)間。在設(shè)計(jì)系統(tǒng)的時(shí)候,應(yīng)該根據(jù)分布式數(shù)據(jù)庫(kù)中各個(gè)數(shù)據(jù)庫(kù)的地理位置的不同情況來(lái)設(shè)計(jì)。在局域網(wǎng)且傳輸率高的系統(tǒng)中,通信代價(jià)和局部處理的開(kāi)銷差別不大,在優(yōu)化中則應(yīng)平等對(duì)待;在數(shù)據(jù)傳輸率較低和通信網(wǎng)速度較慢的系統(tǒng)中,網(wǎng)絡(luò)傳輸可能會(huì)比花費(fèi)在查詢中的CPU及I/O的開(kāi)銷更大,則應(yīng)首要考慮優(yōu)化網(wǎng)絡(luò)通信。
匯總處理塊。結(jié)果匯總大致分為兩種情況:?jiǎn)螜C(jī)單庫(kù)情況下,直接返回結(jié)果;多機(jī)多庫(kù)的情況則需要在轉(zhuǎn)發(fā)節(jié)點(diǎn)處進(jìn)行一個(gè)匯總。
基于架構(gòu)的工作流程大致如下:首先,轉(zhuǎn)發(fā)節(jié)點(diǎn)收到客戶端發(fā)來(lái)的SQL語(yǔ)句,將依據(jù)各個(gè)解析節(jié)點(diǎn)當(dāng)前工作量、預(yù)計(jì)完成解析工作的時(shí)間、本條查詢語(yǔ)句預(yù)估需要時(shí)間、歷史響應(yīng)需求時(shí)間等因素,將SQL語(yǔ)句轉(zhuǎn)發(fā)給各個(gè)解析節(jié)點(diǎn),對(duì)其進(jìn)行語(yǔ)法解析。當(dāng)所有的工作量都經(jīng)過(guò)這個(gè)轉(zhuǎn)發(fā)節(jié)點(diǎn)的時(shí)候,必然會(huì)產(chǎn)生高并發(fā)的問(wèn)題。在存在多個(gè)分發(fā)節(jié)點(diǎn)的情形下,為了消除單個(gè)轉(zhuǎn)發(fā)節(jié)點(diǎn)的性能瓶頸,本文設(shè)計(jì)多個(gè)分發(fā)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都可以將任務(wù)轉(zhuǎn)發(fā)到不同的解析節(jié)點(diǎn)。采用RoundRobin策略將任務(wù)依次分發(fā)給每個(gè)解析節(jié)點(diǎn),讓工作量保持均衡。其次,解析節(jié)點(diǎn)解析本次查詢的SQL語(yǔ)句,生成便于理解的SQL對(duì)象,通過(guò)調(diào)用相應(yīng)的接口方法可以實(shí)現(xiàn)對(duì)SQL語(yǔ)句的操作。最后,各個(gè)數(shù)據(jù)庫(kù)服務(wù)器執(zhí)行了 SQL語(yǔ)句,便對(duì)查詢結(jié)果進(jìn)行一個(gè)匯總并返回,劃分倘若是單機(jī)查詢,那么處理的結(jié)果可直接返回給客戶端。
SQL解析、數(shù)據(jù)切分以及轉(zhuǎn)發(fā)歸并的工作都由以上四個(gè)模塊協(xié)同完成。
基于MPP架構(gòu)的設(shè)計(jì)了關(guān)系型數(shù)據(jù)庫(kù)的海量數(shù)據(jù)分布式存儲(chǔ)解決方案。本章采用解析SQL語(yǔ)句、分發(fā)SQL語(yǔ)句,并行處理、歸并匯總處理結(jié)果的方式完成整個(gè)框架。與MySQL
Cluster的區(qū)別在于采用的存儲(chǔ)引擎就是MySQL,適應(yīng)于本身就用MySQL進(jìn)行存儲(chǔ)的集中式數(shù)據(jù)庫(kù)的改造,或是業(yè)務(wù)邏輯復(fù)雜的報(bào)表展示等,無(wú)論是業(yè)務(wù)的擴(kuò)展,遷移都十分方便。
參考文獻(xiàn):
篇9
關(guān)鍵詞:海量遙感影像 縮減存儲(chǔ) 瓦片地圖 高并發(fā)訪問(wèn)
中圖分類號(hào):P282 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2014)05(b)-0031-02
隨著遙感技術(shù)的發(fā)展,影像地圖應(yīng)用的日益增多,在全國(guó)級(jí)的海量影像地圖應(yīng)用中,數(shù)據(jù)的存儲(chǔ)、管理和更新是業(yè)界一直比較關(guān)注的熱點(diǎn)問(wèn)題。當(dāng)前很多應(yīng)用會(huì)采用分塊分層結(jié)構(gòu)對(duì)影像地圖數(shù)據(jù)進(jìn)行切割處理,然后分塊調(diào)用[1],可以明顯加快顯示速度,下文稱此技術(shù)產(chǎn)生的地圖為瓦片地圖。在這種瓦片地圖應(yīng)用過(guò)程中,本文提出了一種基于特征點(diǎn)數(shù)據(jù)分布的海量影像地圖縮減存儲(chǔ)方法,并以瓦片影像地圖的應(yīng)用為實(shí)例進(jìn)行驗(yàn)證,該方法可以有效縮減90%以上的地圖存儲(chǔ)量,在此基礎(chǔ)上,本文還分析了數(shù)據(jù)快速更新機(jī)制、適用于高并發(fā)的多級(jí)數(shù)據(jù)存儲(chǔ)策略等海量地圖應(yīng)用關(guān)鍵技術(shù)的可行性。
1 影像數(shù)據(jù)組織方式
本文以瓦片式影像地圖的應(yīng)用作為實(shí)例,來(lái)驗(yàn)證該縮減壓縮方法的有效性,故此先簡(jiǎn)述瓦片地圖的組織結(jié)構(gòu)以及數(shù)據(jù)存儲(chǔ)量的計(jì)算方法。
1.1 金字塔式瓦片存儲(chǔ)組織結(jié)構(gòu)
瓦片式電子地圖是當(dāng)前比較流行的地圖服務(wù)形式,其采用金字塔結(jié)構(gòu),對(duì)影像地圖進(jìn)行分層和分塊的劃分。按照既定的多層比例尺,把每一個(gè)比例尺的整幅影像地圖切割為256×256像素或者512×512像素的小幅圖片(通常稱為瓦片),地圖引擎再采用相應(yīng)的算法,把這些小幅圖片組織起來(lái),顯示到客戶端界面。瓦片的結(jié)構(gòu)圖如圖1所示[2]。
1.2 影像地圖數(shù)據(jù)總量計(jì)算
假設(shè)切圖方式采用現(xiàn)在流行的WEB墨卡托投影切片方式,即橫向和豎向的瓦片數(shù)量一致,則可知每個(gè)地圖級(jí)別n的瓦片數(shù)量為2n×2n,0~18級(jí)瓦片地圖的總數(shù)據(jù)量及存儲(chǔ)空間見(jiàn)表1所示[3](通常情況下,影像瓦片地圖平均大小為10 KB)。
以上為全球的瓦片地圖總數(shù)據(jù)量,如果按中國(guó)大陸的區(qū)域進(jìn)行計(jì)算,0~18級(jí)的數(shù)據(jù)總量大約為1994965244×10/1024/1024/1024=18.58T。
2 影像地圖智能縮減存儲(chǔ)方法
下面以全國(guó)特征點(diǎn)數(shù)據(jù)為基礎(chǔ),詳述如何從中挖掘出重要區(qū)域信息,然后采用合適的高效算法,判斷某個(gè)位置的瓦片地圖是否是重要地圖,繼而選擇性的存儲(chǔ),保證存儲(chǔ)的瓦片地圖都位于比較重要的位置。并且根據(jù)某個(gè)位置區(qū)域的特征點(diǎn)數(shù)據(jù)的密度,自動(dòng)判斷某個(gè)比例尺下的某個(gè)瓦片是否為重要地圖,可針對(duì)每個(gè)比例尺進(jìn)行地圖重要性判斷,從而大大縮減了重要地圖的數(shù)量,達(dá)到地圖智能縮減存儲(chǔ)的目的。
2.1 挖掘重要區(qū)域信息
首先對(duì)全國(guó)特征點(diǎn)數(shù)據(jù)進(jìn)行網(wǎng)格劃分,劃分依據(jù)為14級(jí)瓦片地圖的切割方法,統(tǒng)計(jì)每個(gè)網(wǎng)格內(nèi)的數(shù)據(jù)量,并根據(jù)數(shù)據(jù)量的多少,計(jì)算當(dāng)前網(wǎng)格的重要程度,基于此重要程度,判斷當(dāng)前網(wǎng)格所處的區(qū)域是否為重要區(qū)域,并且根據(jù)重要程度的高低,判斷后續(xù)的15~18級(jí)地圖是否為重要地圖。
選擇14級(jí)作為基準(zhǔn)參考級(jí)別也是有所考慮的,14級(jí)網(wǎng)格數(shù)量約為596.7萬(wàn),若按15級(jí)或更大級(jí)別劃分,就容易因網(wǎng)格數(shù)量過(guò)大,降低后期數(shù)據(jù)判斷的運(yùn)算速度。并且因?yàn)楸局匾潭葦?shù)據(jù)本身只是參考數(shù)據(jù),并不一定代表實(shí)際情況,所以,過(guò)于要求數(shù)據(jù)的精準(zhǔn)度,并不一定達(dá)到更好的實(shí)際使用效果。
該分析方法具有通用性,當(dāng)特征點(diǎn)數(shù)據(jù)更新時(shí),可快速的更新此重要區(qū)域信息,為后續(xù)的判斷提供新的依據(jù)。
2.2 基于重要區(qū)域信息的縮減存儲(chǔ)方法
按照上一步挖掘出的重要區(qū)域信息,判斷任意瓦片地圖是否為重要地圖,簡(jiǎn)單的判斷依據(jù)為:
(1)小于14級(jí),認(rèn)為全部是重要地圖。
(2)14級(jí),當(dāng)網(wǎng)格內(nèi)數(shù)量大于0,則認(rèn)為是重要地圖。
(3)14級(jí)以上時(shí),假設(shè)當(dāng)前級(jí)別為level,先找到當(dāng)前瓦片在14級(jí)所在的瓦片網(wǎng)格的位置,獲取此網(wǎng)格的數(shù)據(jù)量n,判斷當(dāng)n>=4level-14時(shí),認(rèn)為此瓦片為重要地圖。
(4)循環(huán)所有瓦片地圖,即可知道那些為重要地圖。
在地圖存儲(chǔ)時(shí),就可以僅存儲(chǔ)重要地圖,達(dá)到縮減存儲(chǔ)的目的。
考慮到特征點(diǎn)數(shù)據(jù)可能出現(xiàn)缺失,以及盡可能為重要地圖區(qū)域顯示更多的緩沖區(qū)域,并且重要地圖周邊一定范圍的地圖訪問(wèn)量也會(huì)是比較高的,所以可對(duì)上述判斷依據(jù)做進(jìn)一步的優(yōu)化,以便更好的適用實(shí)際情況,可能包含以下優(yōu)化方法:
(1)重要地圖周邊N塊網(wǎng)格的地圖都認(rèn)為是重要地圖,N>=1,具體數(shù)值可根據(jù)實(shí)際情況設(shè)置。
(2)每個(gè)網(wǎng)格的權(quán)重不簡(jiǎn)單的按照其中的特征點(diǎn)數(shù)量,而是參考周邊網(wǎng)格的權(quán)重進(jìn)行綜合計(jì)算,可有效的建立重要地圖的周邊緩沖帶,達(dá)到更好的顯示效果。
優(yōu)化后可達(dá)到更好的顯示效果,但也會(huì)帶來(lái)存儲(chǔ)量的增加,需根據(jù)實(shí)際情況選用。
3 應(yīng)用實(shí)例
本文以中國(guó)大陸的影像地圖為例,使用本文的數(shù)據(jù)縮減方法對(duì)海量瓦片影像數(shù)據(jù)進(jìn)行縮減存儲(chǔ)處理。
首先,對(duì)全國(guó)2000余萬(wàn)條特征點(diǎn)數(shù)據(jù)進(jìn)行挖掘分析,計(jì)算出重要區(qū)域,然后通過(guò)此重要區(qū)域以及相關(guān)算法,判斷每個(gè)瓦片是否為重要地圖,計(jì)算結(jié)果如表2所示。
全部級(jí)別數(shù)據(jù)量之和為17176348張瓦片,總存儲(chǔ)空間約為163.8G,相比沒(méi)有縮減之前的18.58T的數(shù)據(jù)存儲(chǔ)空間,縮減比例達(dá)99.14%。
因影像瓦片地圖色彩都比較豐富,重要和非重要區(qū)域的地圖圖片大小差別并不是很大,由實(shí)際的存儲(chǔ)容量就可以看得出來(lái),所以使用理論上的瓦片數(shù)據(jù)的比例作為存儲(chǔ)空間的縮減比例,是具有一定的參考價(jià)值的。
從部署和更新時(shí)間上考慮,163.8GB的瓦片地圖數(shù)據(jù)進(jìn)行切片、壓縮、打包、上傳、解壓等完整步驟,在單臺(tái)普通計(jì)算機(jī)上只需要20天左右的時(shí)間,如果使用多臺(tái)機(jī)器進(jìn)行任務(wù)分解操作,基本上可滿足快速更新部署的需求。
4 基于重要區(qū)域信息的擴(kuò)展應(yīng)用
4.1 地圖快速更新
如果有新的影像地圖數(shù)據(jù)產(chǎn)生,可優(yōu)先對(duì)重要區(qū)域內(nèi)的地圖數(shù)據(jù)進(jìn)行處理,達(dá)到數(shù)據(jù)快速更新的目的。
4.2 提升并發(fā)性能
眾所周知,對(duì)于大多數(shù)系統(tǒng)來(lái)說(shuō),最頭疼的就是大規(guī)模的小文件存儲(chǔ)與讀取,因?yàn)榇蓬^需要頻繁的尋道和換道,因此,在讀取上容易帶來(lái)較長(zhǎng)的延時(shí)。在大量高并發(fā)訪問(wèn)量的情況下,簡(jiǎn)直就是系統(tǒng)的噩夢(mèng)[4]。海量瓦片地圖就是這樣的情況,圖片數(shù)據(jù)可達(dá)數(shù)十億張以上,如果沒(méi)有比較好的存儲(chǔ)策略,在高并發(fā)訪問(wèn)時(shí),文件IO勢(shì)必成為系統(tǒng)瓶頸。當(dāng)前比較簡(jiǎn)單且有效的方法是將訪問(wèn)頻率較高或者隨機(jī)讀寫(xiě)比例較高的數(shù)據(jù)文件放在固態(tài)硬盤SSD上,而將訪問(wèn)頻率較低或者順序讀寫(xiě)比例較高的數(shù)據(jù)文件存放在機(jī)械硬盤上[5]。
根據(jù)本文提出的數(shù)據(jù)縮減方法,就可以把重要地圖放置在SSD硬盤上,把剩余的地圖放置在機(jī)械硬盤上,可大大提升高并發(fā)時(shí)的地圖訪問(wèn)速度。并且根據(jù)當(dāng)前主流的存儲(chǔ)器價(jià)格數(shù)據(jù),SSD存儲(chǔ)的價(jià)格大約是SATA盤的10~20倍,昂貴的高速存儲(chǔ)器只有比較小的存儲(chǔ)空間,把訪問(wèn)量高的數(shù)據(jù)放在高速存儲(chǔ)上,訪問(wèn)量低的數(shù)據(jù)放在低速存儲(chǔ)上,也可以達(dá)到節(jié)約成本的目的。總之,使用本文的數(shù)據(jù)縮減存儲(chǔ)方法,可達(dá)到節(jié)約成本、提高并發(fā)訪問(wèn)性能的目的。
4.3 原理通用性
本縮減方法,還可適用于平面地圖、地形圖等各種瓦片地圖或者其他地圖數(shù)據(jù)的存儲(chǔ)策略,便于對(duì)訪問(wèn)需求量比較高的“重要地圖”進(jìn)行優(yōu)先考慮。
5 結(jié)語(yǔ)
本文提出的海量影像地圖數(shù)據(jù)縮減存儲(chǔ)方法,可有效的降低數(shù)據(jù)存儲(chǔ)量,特別是當(dāng)數(shù)據(jù)有多機(jī)備份時(shí),具有非常明顯的效果;進(jìn)一步,基于此方法產(chǎn)生的重要區(qū)域信息數(shù)據(jù),本文還提出了其可能的一些擴(kuò)展應(yīng)用,例如解決數(shù)據(jù)多級(jí)存儲(chǔ)、高并發(fā)訪問(wèn)、成本控制以及快速更新部署的問(wèn)題。
參考文獻(xiàn)
[1] 王華斌,唐新明,李黔湘.海量遙感影像數(shù)據(jù)存儲(chǔ)管理技術(shù)研究與實(shí)現(xiàn)[J].測(cè)繪科學(xué),2008,33(6):156-157.
[2] 宋江洪,趙忠明.圖像分塊分層結(jié)構(gòu)在海量數(shù)據(jù)處理中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2004(33).
[3] 許輝,馬曉鵬.基于WEB墨卡托投影地理信息系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電腦編程技巧與維護(hù),2011(8).
篇10
關(guān)鍵詞 分布式計(jì)算 非關(guān)系型數(shù)據(jù)庫(kù) 海量數(shù)據(jù)處理 云計(jì)算
1 引言
目前網(wǎng)絡(luò)服務(wù)正從傳統(tǒng)的“高集中、高成本、低通用”的服務(wù)配置向“高分布、低成本、高通用”轉(zhuǎn)變。為了構(gòu)建出動(dòng)態(tài)的、易擴(kuò)展的、高性價(jià)比的計(jì)算和存儲(chǔ)平臺(tái),目前涌現(xiàn)出了云計(jì)算(Cloud computing)等新型網(wǎng)絡(luò)計(jì)算技術(shù)及其應(yīng)用系統(tǒng),目的都是將客戶數(shù)據(jù)和計(jì)算請(qǐng)求部署在大量集中或分布管理的廉價(jià)計(jì)算與存儲(chǔ)設(shè)備(如PC)上,利用高效的并行和分布式計(jì)算技術(shù),支持應(yīng)用的快速部署和任務(wù)調(diào)度,提供數(shù)據(jù)冗余機(jī)制,穩(wěn)定、快捷地滿足用戶的各種應(yīng)用。其中,數(shù)據(jù)的存儲(chǔ)方式是構(gòu)建云計(jì)算平臺(tái)時(shí)需要重點(diǎn)考慮的關(guān)鍵因素。
1970年,Edgar Frank Codd首次提出了數(shù)據(jù)庫(kù)的關(guān)系模型的概念,奠定了關(guān)系模型的理論基礎(chǔ)。后來(lái)Codd又陸續(xù)發(fā)表多篇文章,論述了范式理論和衡量關(guān)系系統(tǒng)的12條標(biāo)準(zhǔn),用數(shù)學(xué)理論奠定了關(guān)系數(shù)據(jù)庫(kù)的基礎(chǔ)。IBM的Ray Boyce和Don Chamberlin將Codd關(guān)系數(shù)據(jù)庫(kù)的12條準(zhǔn)則的數(shù)學(xué)定義以簡(jiǎn)單的關(guān)鍵字語(yǔ)法表現(xiàn)出來(lái),里程碑式地提出了SQL語(yǔ)言。由于關(guān)系模型簡(jiǎn)單明了、具有堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ),所以一經(jīng)推出就受到了學(xué)術(shù)界和產(chǎn)業(yè)界的高度重視和廣泛響應(yīng),并很快成為數(shù)據(jù)庫(kù)市場(chǎng)的主流。當(dāng)前的大多數(shù)數(shù)據(jù)主要以關(guān)系型數(shù)據(jù)庫(kù)的方式進(jìn)行存儲(chǔ)。
隨著Web2.0的快速發(fā)展,非關(guān)系型、分布式數(shù)據(jù)庫(kù)存儲(chǔ)得到了快速的發(fā)展,它們不保證關(guān)系數(shù)據(jù)的ACID特性。非關(guān)系型數(shù)據(jù)庫(kù)(NosQL)概念在2009年被提出來(lái),其主要特點(diǎn)如下:
(1)松耦合類型:使用松耦合類型、可擴(kuò)展的數(shù)據(jù)模式來(lái)對(duì)數(shù)據(jù)進(jìn)行邏輯建模(Map、列、文檔、圖標(biāo)等)。
(2)彈性計(jì)算能力:以遵循于CAP定理的跨多節(jié)點(diǎn)數(shù)據(jù)分布模型而設(shè)計(jì),支持水平伸縮。也即對(duì)于多數(shù)據(jù)中心和動(dòng)態(tài)供應(yīng)的必要支持,即彈性計(jì)算能力。
(3)靈活存儲(chǔ):擁有在磁盤或者內(nèi)存中,或者在這兩者中都有,對(duì)數(shù)據(jù)持久化的能力,有時(shí)候還可以使用可熱插拔的定制存儲(chǔ)。
(4)多數(shù)據(jù)接口:支持多種的“Non-SQL”接口進(jìn)行數(shù)據(jù)訪問(wèn)。
(5)易擴(kuò)展:NoSQL種類繁多,但是共同的特點(diǎn)是沒(méi)有關(guān)系數(shù)據(jù)庫(kù)的關(guān)系型特征。數(shù)據(jù)中間無(wú)關(guān)系,因此擴(kuò)展比較容易,同時(shí)在架構(gòu)的層面也帶來(lái)了可擴(kuò)展的能力。
(6)大數(shù)據(jù)量,高性能:NoSQL由于無(wú)關(guān)系型,數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)簡(jiǎn)單;且NoSQL的Cache是記錄級(jí)別的,因此性能要高很多。
(7)靈活的數(shù)據(jù)模型:NoSQL無(wú)需事先為要存儲(chǔ)的數(shù)據(jù)建立字段,隨時(shí)可以存儲(chǔ)自定義的數(shù)據(jù)格式;而關(guān)系數(shù)據(jù)庫(kù),則基本不可能。
(8)高可用:NoSQL由于采用CAP原則設(shè)計(jì),在不影響性能的情況下,可以實(shí)現(xiàn)高可用的架構(gòu)。
目前普遍受到關(guān)注的基于大規(guī)模廉價(jià)計(jì)算平臺(tái)的系統(tǒng)包括Google的云計(jì)算平臺(tái)和Yahoo資助的開(kāi)源項(xiàng)目Hadoop系統(tǒng)等。這兩種系統(tǒng)采用了非常近似的Map/Reduce計(jì)算模式和大規(guī)模分布式非關(guān)系數(shù)據(jù)存儲(chǔ)NoSQL機(jī)制(Google的Bigtable和Hadoop的HBase)。
本文的貢獻(xiàn)在于:探索在混搭平臺(tái)上,既利用NoSQL的高并發(fā)、高擴(kuò)展、低成本的特性,又保持了傳統(tǒng)數(shù)據(jù)庫(kù)成熟的解決方案,從而展示了混搭平臺(tái)對(duì)于海量數(shù)據(jù)存儲(chǔ)及分析處理能力,以源自電信部門的大規(guī)模業(yè)務(wù)數(shù)據(jù)為分析對(duì)象,構(gòu)建了一個(gè)具有良好參考價(jià)值的應(yīng)用示范。
2 技術(shù)思路
隨著電信行業(yè)的發(fā)展和用戶規(guī)模的不斷擴(kuò)大,每天都產(chǎn)生著海量的業(yè)務(wù)數(shù)據(jù)、上網(wǎng)數(shù)據(jù)、信令數(shù)據(jù)、用戶話單數(shù)據(jù)等。運(yùn)營(yíng)商普遍希望利用數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行分析處理,從而提供決策支持和為用戶提供增值服務(wù)。然而由于數(shù)據(jù)量過(guò)于龐大,利用關(guān)系型數(shù)據(jù)庫(kù)和復(fù)雜SQL語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行處理的傳統(tǒng)方法將占用大量處理與存儲(chǔ)資源,造成承載的服務(wù)器負(fù)載過(guò)高,執(zhí)行效率低下,不得不提升服務(wù)器性能及存儲(chǔ)規(guī)模,導(dǎo)致投資成本增加,已經(jīng)越來(lái)越不可取。
“非關(guān)系型數(shù)據(jù)庫(kù)”能夠以兩種基本的方式實(shí)現(xiàn)業(yè)務(wù)處理的靈活性。模式自由的邏輯數(shù)據(jù)模型有助于為任何業(yè)務(wù)進(jìn)行調(diào)整帶來(lái)更快的周轉(zhuǎn)時(shí)間,把對(duì)現(xiàn)有應(yīng)用和功能造成的影響減到最少,在大多數(shù)情況下因變更而帶來(lái)的遷移工作幾乎為零;水平伸縮性能夠在用戶增加造成負(fù)載周期性變化,或者應(yīng)用突然變更的使用模式時(shí),提供堅(jiān)固的保障。面向水平伸縮型的架構(gòu)也是邁向基于SLA構(gòu)建的第一步,這樣才能保證在應(yīng)用不斷變化的情形下業(yè)務(wù)處理保持連續(xù)。
分布式數(shù)據(jù)的核心問(wèn)題是保證磁盤I/O不能成為應(yīng)用性能的瓶頸,在此之上,絕大部分解決方案支持各種新一代并行計(jì)算的范式,例如MapReduce、排序列、Bloom Filter、B樹(shù)、Memtable等。分布式計(jì)算模式將大型任務(wù)分成很多細(xì)粒度的子任務(wù),這些子任務(wù)分布式地在多個(gè)計(jì)算節(jié)點(diǎn)上進(jìn)行調(diào)度和計(jì)算,從而在云平臺(tái)上獲得對(duì)海量數(shù)據(jù)的處理能力,可以有效地解決電信行業(yè)海量數(shù)據(jù)挖掘處理中所存在的問(wèn)題。
以關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)和非關(guān)系型數(shù)據(jù)NoSQL存儲(chǔ)為基礎(chǔ),結(jié)合云計(jì)算下的分布式計(jì)算理念,以下提出對(duì)電信數(shù)據(jù)的海量數(shù)據(jù)處理方法。
3 方案設(shè)計(jì)
結(jié)合關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)敏感數(shù)據(jù)及實(shí)時(shí)訪問(wèn)的優(yōu)點(diǎn),以及非關(guān)系數(shù)據(jù)庫(kù)模式自由與低成本高性能高可擴(kuò)展的優(yōu)點(diǎn),本文提出了關(guān)系數(shù)據(jù)庫(kù)與非關(guān)系數(shù)據(jù)庫(kù)NoSQL相結(jié)合的海量數(shù)據(jù)方案。系統(tǒng)架構(gòu)如圖1所示。
(1)數(shù)據(jù)整合層
通過(guò)封裝關(guān)系數(shù)據(jù)存儲(chǔ)與非關(guān)系數(shù)據(jù)存儲(chǔ)的混合存儲(chǔ)模型,化繁為簡(jiǎn),用于實(shí)現(xiàn)數(shù)據(jù)訪問(wèn)與共享的隔離。
本系統(tǒng)的核心在于關(guān)系數(shù)據(jù)存儲(chǔ)和非關(guān)系數(shù)據(jù)存儲(chǔ)的有效結(jié)合。非關(guān)系型數(shù)據(jù)存儲(chǔ)和關(guān)系數(shù)據(jù)存儲(chǔ)主要包括如下技術(shù)實(shí)現(xiàn)方式:非關(guān)系存儲(chǔ)作為鏡像(可以采用代碼同步模式或者同步模式)、關(guān)系與非關(guān)系數(shù)據(jù)存儲(chǔ)的組合。鑒于電信行業(yè)數(shù)據(jù)的特點(diǎn),本系統(tǒng)主要采用關(guān)系和非關(guān)系存儲(chǔ)組合的方式進(jìn)行實(shí)現(xiàn)。