云計(jì)算技術(shù)下數(shù)據(jù)挖掘探討

時(shí)間:2022-12-07 10:24:27

導(dǎo)語:云計(jì)算技術(shù)下數(shù)據(jù)挖掘探討一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

云計(jì)算技術(shù)下數(shù)據(jù)挖掘探討

摘要:對(duì)于云計(jì)算而言,就是互聯(lián)網(wǎng)時(shí)代應(yīng)用而產(chǎn)生的一種新的網(wǎng)絡(luò)技術(shù)。它有著很高的效率、高容量和動(dòng)態(tài)處理的優(yōu)點(diǎn),并且在社會(huì)的商業(yè)與科學(xué)研究等領(lǐng)域上顯示出了非常高的使用價(jià)值。云計(jì)算時(shí)代隨著快速的發(fā)展,而云計(jì)算海量數(shù)據(jù)挖掘也已成為了一種實(shí)用、高效、可行的技術(shù),解決了傳統(tǒng)數(shù)據(jù)挖掘無法適應(yīng)日益增長的數(shù)據(jù)量的問題。為了探索云計(jì)算技術(shù)數(shù)據(jù)挖掘平臺(tái)的構(gòu)建,基于云計(jì)算技術(shù),構(gòu)建了一個(gè)基于數(shù)量優(yōu)化的數(shù)據(jù)挖掘平臺(tái),并且對(duì)構(gòu)建平臺(tái)的架構(gòu)和關(guān)鍵技術(shù)進(jìn)行了分析。結(jié)果表明在實(shí)際的應(yīng)用之中,利用云計(jì)算技術(shù)構(gòu)建的數(shù)據(jù)挖掘平臺(tái),不僅有助于可以突破傳統(tǒng)數(shù)據(jù)挖掘的性能瓶頸,而且還可以利用云計(jì)算技術(shù)對(duì)大數(shù)據(jù)集進(jìn)行處理,并且對(duì)于數(shù)據(jù)挖掘平臺(tái)的效率也可以提高,在應(yīng)用之中能夠起到積極的作用,在實(shí)踐中可以推動(dòng)該數(shù)據(jù)挖掘平臺(tái)構(gòu)建的應(yīng)用。

關(guān)鍵詞:平臺(tái)構(gòu)建;數(shù)據(jù)挖掘平臺(tái);云計(jì)算;信息化

隨著計(jì)算機(jī)技術(shù)與計(jì)算機(jī)網(wǎng)絡(luò)的快速發(fā)展,尤其是網(wǎng)絡(luò)計(jì)算和云計(jì)算的逐步發(fā)展,已經(jīng)有越來越多的數(shù)據(jù)分布被儲(chǔ)存在了網(wǎng)絡(luò)之中,而對(duì)于在大規(guī)模的數(shù)據(jù)集之中如何提取有效地信息也就變得越來越重要[8]。對(duì)于數(shù)據(jù)挖掘技術(shù)來說,它可以促進(jìn)人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡單查詢提高到高層次的查詢,能夠在挖掘知識(shí)的同時(shí)并提供決策支持。另外,隨著各行業(yè)的業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn),對(duì)于商務(wù)領(lǐng)域的業(yè)務(wù)信息目標(biāo)已經(jīng)不再只是通過使用簡單的數(shù)據(jù)分析來進(jìn)行收集,而更多的則是借助于對(duì)商務(wù)的運(yùn)作,通過對(duì)大量的數(shù)據(jù)進(jìn)行深入探索分析,從而可以使企業(yè)能夠獲得經(jīng)營決策之中的有利用價(jià)值的信息,并且使競爭力得以提升,最終可以實(shí)現(xiàn)效益的最大化。對(duì)于最近幾年最熱門的云計(jì)算技術(shù)而言,其實(shí)它并不完全屬于一種全新的技術(shù),而是因?yàn)榻┠陙淼乃目焖侔l(fā)展和廣闊的應(yīng)用,已經(jīng)成為一項(xiàng)熱門的技術(shù),同時(shí)它還推動(dòng)了傳統(tǒng)思維的信息提供方式與ICI系統(tǒng)交付模式向商業(yè)化形式的轉(zhuǎn)變。將目前現(xiàn)有的數(shù)據(jù)挖掘技術(shù)與云計(jì)算的高虛擬化和高可用性的特征實(shí)行有效地結(jié)合,可以讓之前的大規(guī)模數(shù)據(jù)的增加所造成的多樣化數(shù)據(jù)挖掘的需求適應(yīng)性問題得到很好的滿足,從而使大量的數(shù)據(jù)挖掘的效率和準(zhǔn)確性得到提高。此次,通過研究分析傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的發(fā)展與云計(jì)算技術(shù)的發(fā)展現(xiàn)狀的對(duì)比,以及結(jié)合新興的互聯(lián)網(wǎng)技術(shù),從而使現(xiàn)有的模型架構(gòu)的使用難點(diǎn)得到解決。同時(shí)還在云計(jì)算的基礎(chǔ)之上,我們提出了對(duì)于大數(shù)據(jù)挖掘平臺(tái)模型體系架構(gòu)的研究思緒,企業(yè)或者運(yùn)營商通過該模型的框架,能夠按照自己的需求來對(duì)內(nèi)部數(shù)據(jù)挖掘模式進(jìn)行建設(shè),以此可以實(shí)現(xiàn)更有效的商業(yè)利用價(jià)值。

1云計(jì)算技術(shù)分析

對(duì)于云計(jì)算而言,它是通過在網(wǎng)絡(luò)計(jì)算、分布式處理、并行處理等新的計(jì)算模型,主要是屬于一種基于互聯(lián)網(wǎng)的計(jì)算。而且云計(jì)算也還屬于一項(xiàng)計(jì)算服務(wù),而不僅僅只是一種產(chǎn)品,它的組成主要分別為計(jì)算資源和軟件以及各種信息等[16]。另外,云計(jì)算技術(shù)所具有的特點(diǎn)主要有以下幾點(diǎn):第一,使用云計(jì)算能夠隨時(shí)提供自助服務(wù);第二,云計(jì)算網(wǎng)絡(luò)系統(tǒng)可以通過各種各樣的網(wǎng)絡(luò)設(shè)備隨時(shí)隨地的進(jìn)行訪問;第三,在云計(jì)算之中可以建立保證多人共享的資源池;第四,在云計(jì)算之中,云計(jì)算技術(shù)也可以快速地進(jìn)行部署,將應(yīng)用的靈活性充分發(fā)揮出等。同時(shí),相關(guān)的研究表明,云計(jì)算技術(shù)主要是給網(wǎng)絡(luò)之中的交易雙方而進(jìn)行虛擬增值資源的供給服務(wù)[11]。并且在數(shù)據(jù)挖掘平臺(tái)的實(shí)際建設(shè)之中,通過使用云計(jì)算技術(shù),可以在應(yīng)用中起到積極的作用。

2基于云計(jì)算大數(shù)據(jù)挖掘的關(guān)鍵技術(shù)

2.1數(shù)據(jù)采集和儲(chǔ)存。對(duì)于大數(shù)據(jù)的采集技術(shù)來說,可以通過使用不同的方法來獲得各類非結(jié)構(gòu)化和半結(jié)構(gòu)化與結(jié)構(gòu)化的大數(shù)據(jù),比如有RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)以及移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等方法。并且隨著科學(xué)技術(shù)的不斷發(fā)展,數(shù)據(jù)信息的增長速度也越來越快,特別是非結(jié)構(gòu)化數(shù)據(jù)。因此,要想使大數(shù)據(jù)的存儲(chǔ)能夠完成,則必須要具備良好的性能、高吞吐率、容量大的基礎(chǔ)設(shè)備2.2數(shù)據(jù)預(yù)處理。所謂的數(shù)據(jù)預(yù)處理指的就是在對(duì)挖掘任務(wù)進(jìn)行之前需要對(duì)不規(guī)則的大數(shù)據(jù)與非標(biāo)準(zhǔn)的大數(shù)據(jù)進(jìn)行的初步預(yù)先處理。而真是有效地?cái)?shù)據(jù)則必須要有正確可靠的結(jié)果。而且在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的過程當(dāng)中還主要包含對(duì)數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗、集成、數(shù)據(jù)規(guī)約、異常檢測等等,因此,這些大量的數(shù)據(jù)必須要在對(duì)數(shù)據(jù)進(jìn)行挖掘之前就需要對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理,從而使得處理過后的數(shù)據(jù)質(zhì)量更高,同時(shí)數(shù)據(jù)挖掘也會(huì)更加有效可靠。2.3數(shù)據(jù)挖掘算法并行化。對(duì)于數(shù)據(jù)挖掘算法并行化的實(shí)現(xiàn),主要借助于云計(jì)算數(shù)據(jù)挖掘的最關(guān)鍵的技術(shù),能夠最大化的提高大數(shù)據(jù)挖掘的適用性,而且該技術(shù)還主要包含有并行關(guān)聯(lián)、聚類、分類和回歸算法[3]。只有通過利用數(shù)據(jù)挖掘的常用算法并行化的方法才可以是實(shí)現(xiàn)相應(yīng)的優(yōu)化,同時(shí)才能夠在云計(jì)算的平臺(tái)上來使用MapReduce計(jì)算模型,并且才可以使大數(shù)據(jù)挖掘任務(wù)在平臺(tái)上的直接運(yùn)行得到滿足。因此,就有必要對(duì)數(shù)據(jù)挖掘算法的并行化的實(shí)現(xiàn)進(jìn)行深入的研究,只有這樣才會(huì)使得大數(shù)據(jù)挖掘能夠得到有效的實(shí)現(xiàn)。2.4數(shù)據(jù)展現(xiàn)和應(yīng)用技術(shù)。數(shù)據(jù)的展現(xiàn)和應(yīng)用技術(shù)能夠有效地進(jìn)行挖掘大規(guī)模數(shù)據(jù)當(dāng)中的潛在信息和知識(shí),并且將復(fù)雜的數(shù)據(jù)分析結(jié)果可以進(jìn)行直觀、清晰地展示出來,從而可以使歷史數(shù)據(jù)的重讀與分析過程的可視化得以實(shí)現(xiàn),并且能夠讓社會(huì)經(jīng)濟(jì)集約化水平得到提高。目前,對(duì)于我國而言,大數(shù)據(jù)主要應(yīng)用的領(lǐng)域是在政府決策、公共服務(wù)、商業(yè)智能等。

3平臺(tái)構(gòu)建需求

3.1保證滿足數(shù)據(jù)挖掘的需求。目前,對(duì)于我國來說,數(shù)據(jù)的挖掘工作已經(jīng)越來越受到人們的重視,然而對(duì)傳統(tǒng)的數(shù)據(jù)挖掘管理模式的應(yīng)用,目前還不能夠完全地適應(yīng)科技信息化的快速發(fā)展的需要[18]。因此,在實(shí)際的應(yīng)用之中,讓先進(jìn)的云計(jì)算技術(shù)運(yùn)用到數(shù)據(jù)挖掘平臺(tái)的建設(shè)之中已經(jīng)屬于勢在必行。另外,隨著我國信息技術(shù)的不斷發(fā)展,對(duì)于網(wǎng)絡(luò)中所存在的大量的用戶數(shù)據(jù)信息,將會(huì)通過運(yùn)用數(shù)據(jù)挖掘技術(shù),可以幫助大量用戶可以在數(shù)據(jù)中挖掘出有用的信息。3.2確保滿足用戶使用該平臺(tái)的需求。云計(jì)算技術(shù)與數(shù)據(jù)挖掘的結(jié)合和基于云計(jì)算技術(shù)的數(shù)據(jù)平臺(tái)的設(shè)計(jì),可以保證用戶的運(yùn)用目標(biāo)的多樣性的需求得到充分滿足,從而可以保證構(gòu)建的數(shù)據(jù)平臺(tái)能夠滿足用戶的需要。在對(duì)云計(jì)算技術(shù)所支持的數(shù)據(jù)挖掘平臺(tái)的建設(shè)之中,能夠?qū)υ朴?jì)算的相關(guān)技術(shù)優(yōu)化應(yīng)用,為了可以在數(shù)據(jù)挖掘平臺(tái)之中構(gòu)建相應(yīng)的云計(jì)算池,還必須要進(jìn)行建立網(wǎng)絡(luò)池和云計(jì)算資源池,才能夠確保在運(yùn)行數(shù)據(jù)挖掘平臺(tái)之中可以有效地利用數(shù)據(jù)資源;同樣,對(duì)數(shù)據(jù)挖掘的需求可以按照行業(yè)不同選擇合理的云計(jì)算技術(shù),從而優(yōu)化云計(jì)算數(shù)據(jù)挖掘平臺(tái)的建設(shè)。3.3確保提升平臺(tái)實(shí)時(shí)性與交互性。在數(shù)據(jù)挖掘平臺(tái)的優(yōu)化建設(shè)中,基于云計(jì)算技術(shù),必須要保證系統(tǒng)的平臺(tái)能夠得到實(shí)時(shí)監(jiān)控,從而方便及時(shí)地對(duì)數(shù)據(jù)挖掘平臺(tái)的運(yùn)行情況進(jìn)行管理和掌握。相同的利用云計(jì)算技術(shù),必須要對(duì)數(shù)據(jù)挖掘平臺(tái)的構(gòu)建進(jìn)行優(yōu)化,不僅可以提高程序自動(dòng)化的水平,同時(shí)還可以使平臺(tái)中的挖掘數(shù)據(jù)信息實(shí)現(xiàn)交互共享。

4在云計(jì)算技術(shù)下構(gòu)建出數(shù)據(jù)挖掘平臺(tái)

為了能夠獲取到更加準(zhǔn)確的結(jié)果,數(shù)據(jù)挖掘通常會(huì)使用相對(duì)較大的數(shù)據(jù)集,在高性能的計(jì)算時(shí)代,大規(guī)模的數(shù)據(jù)就必須要提高運(yùn)算的速度,同時(shí),也會(huì)增加了超級(jí)計(jì)算機(jī)的成本,最終將會(huì)無法承擔(dān)高成本。云計(jì)算技術(shù)可以通過采取并行計(jì)算技術(shù)和分布式計(jì)算技術(shù)而建設(shè)高吞吐量的計(jì)算系統(tǒng),從而可以解決上述的問題[17]。此外,云計(jì)算還具備分布式計(jì)算和分布式存儲(chǔ)兩方面的優(yōu)點(diǎn),這與單機(jī)處理相比更加具有很大的優(yōu)勢。因此,有必要建立一個(gè)基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái),進(jìn)而可以利用平臺(tái)為大數(shù)據(jù)提供存儲(chǔ)與挖掘的能力,同時(shí)平臺(tái)從下向上可以分為基礎(chǔ)層、服務(wù)層、業(yè)務(wù)層等三個(gè)層次。具體的平臺(tái)架構(gòu)如圖1所示。4.1平臺(tái)功能分析。在此次數(shù)據(jù)挖掘平臺(tái)的設(shè)計(jì)之中,通過使用云計(jì)算技術(shù),能夠有效地實(shí)現(xiàn)數(shù)據(jù)挖掘服務(wù),從而可以挖掘到準(zhǔn)確可靠的信息。圖2所示為功能結(jié)構(gòu)圖。圖2功能圖它還可以使用先進(jìn)的云計(jì)算技術(shù),將安全可靠性高與低碳環(huán)保的智能化數(shù)據(jù)裝置進(jìn)行結(jié)合,并在高速網(wǎng)絡(luò)通信平臺(tái)的基礎(chǔ)上,對(duì)數(shù)據(jù)挖掘平臺(tái)進(jìn)行優(yōu)化,以保證平臺(tái)不僅使自動(dòng)數(shù)據(jù)采樣、數(shù)據(jù)挖掘和隱私保護(hù)及查詢等功能能夠完成,而且還可以按照平臺(tái)的實(shí)際需求進(jìn)行設(shè)計(jì),從而可以使實(shí)時(shí)化的只能監(jiān)控、調(diào)節(jié)和交互等功能得到保障。同時(shí),云計(jì)算技術(shù)還可以用來優(yōu)化平臺(tái)的數(shù)據(jù)挖掘模型的建模方法,構(gòu)建一個(gè)集成的信息編程平臺(tái),從而提供一致、可靠和完整的數(shù)據(jù)挖掘結(jié)果,而且可以保證所設(shè)計(jì)的憑條能使用戶需求得到滿足。4.2構(gòu)建云計(jì)算技術(shù)下的XML文件挖掘系統(tǒng)。在數(shù)據(jù)挖掘的平臺(tái)之中,首先對(duì)XML文件進(jìn)行處理,可以使數(shù)據(jù)挖掘多個(gè)關(guān)系表中分散的數(shù)據(jù)通過利用云計(jì)算技術(shù)對(duì)數(shù)據(jù)進(jìn)行重新整合,從而使這些數(shù)據(jù)能形成完整的XML文件。因此,在數(shù)據(jù)挖掘平臺(tái)的建設(shè)之中,我們應(yīng)對(duì)XML挖掘部分進(jìn)行優(yōu)化和構(gòu)建,對(duì)XML的處理系統(tǒng)構(gòu)架需要簡化,同時(shí)利用面向?qū)ο蟮姆椒ǎ谠朴?jì)算方法的基礎(chǔ)上進(jìn)行構(gòu)建編程對(duì)象模型,方便互操作性和可擴(kuò)展性得以實(shí)現(xiàn)。類似地,在數(shù)據(jù)挖掘中,通過利用平臺(tái)中關(guān)系數(shù)據(jù)庫中的XML挖掘的方法,按照XML中任意兩個(gè)節(jié)點(diǎn)的編碼來進(jìn)行判斷兩個(gè)節(jié)點(diǎn)之間的關(guān)系,從而可以從中挖掘出有用的XML文件信息。4.3數(shù)據(jù)挖掘步驟。在云計(jì)算技術(shù)的數(shù)據(jù)挖掘平臺(tái)的基礎(chǔ)之上,對(duì)于大量數(shù)據(jù)的存儲(chǔ)平臺(tái)內(nèi)來進(jìn)行數(shù)據(jù)挖掘,而且還必須和許多不一樣的智能處理算法相結(jié)合來對(duì)數(shù)據(jù)進(jìn)行挖掘運(yùn)算,而且對(duì)于那些挖掘出來的重要數(shù)據(jù),通過進(jìn)行相關(guān)的評(píng)價(jià)和迭代分析,最終就可以得到的數(shù)據(jù)挖掘出的數(shù)據(jù)最優(yōu)。在實(shí)踐中,基于云計(jì)算技術(shù)的數(shù)據(jù)挖掘的步驟如圖3所示。第一,主要是先要對(duì)此次挖掘數(shù)據(jù)的主題確定;第二,可以利用如Clementine、Qracle數(shù)據(jù)庫等商業(yè)挖掘工具來對(duì)相關(guān)數(shù)據(jù)進(jìn)行處理;第三,對(duì)數(shù)據(jù)進(jìn)行采樣和選擇,然后依照數(shù)據(jù)的趨勢和分布統(tǒng)計(jì)等方法,來對(duì)數(shù)據(jù)挖掘的模型進(jìn)行構(gòu)建;第四,對(duì)數(shù)據(jù)挖掘模型進(jìn)行評(píng)價(jià),從而能提取出有利的數(shù)據(jù)信息。

5結(jié)語

隨著互聯(lián)網(wǎng)和信息技術(shù)的飛速發(fā)展和信息的總量的高速增長,世界將會(huì)面臨著大數(shù)據(jù)的挑戰(zhàn)。然而云計(jì)算的大量數(shù)據(jù)信息和強(qiáng)大的計(jì)算和數(shù)據(jù)處理功能,可以為數(shù)據(jù)挖掘給予強(qiáng)有力的支持。鑒于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng),它所具備的很多優(yōu)點(diǎn)是數(shù)據(jù)挖掘系統(tǒng)以前所沒有的,因此,它可以為企業(yè)用戶與個(gè)人用戶的數(shù)據(jù)挖掘任務(wù)提供一個(gè)很好的解決方法[13]。此外,通過構(gòu)建基于云計(jì)算技術(shù)下的數(shù)據(jù)挖掘平臺(tái),使云計(jì)算技術(shù)之中的若干資源可以面向業(yè)務(wù)的數(shù)據(jù)挖掘應(yīng)用,起到了積極的作用,同時(shí),平臺(tái)的用戶也可以獲取到大量的數(shù)據(jù)挖掘功能和大量數(shù)據(jù)的存儲(chǔ)功能,從而使數(shù)據(jù)管理、計(jì)算和分析的軟件與硬件的成本降低。

作者:王鵬 單位:陜西財(cái)經(jīng)職業(yè)技術(shù)學(xué)院