云計(jì)算大數(shù)據(jù)挖掘體系構(gòu)建分析
時(shí)間:2022-04-09 02:56:56
導(dǎo)語(yǔ):云計(jì)算大數(shù)據(jù)挖掘體系構(gòu)建分析一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:隨著移動(dòng)互聯(lián)網(wǎng)、移動(dòng)智能終端技術(shù)的快速發(fā)展,各種業(yè)務(wù)數(shù)據(jù)有了井噴式的增加,尤其是物聯(lián)網(wǎng)的快速發(fā)展,產(chǎn)生了海量的實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)。隨著數(shù)據(jù)量的增大和數(shù)據(jù)類型的豐富,產(chǎn)生了大數(shù)據(jù)挖掘和云計(jì)算技術(shù),本文從大數(shù)據(jù)挖掘步驟為切入點(diǎn),分析了大數(shù)據(jù)挖掘存在的問(wèn)題以及利用云計(jì)算技術(shù)解決問(wèn)題的過(guò)程。
關(guān)鍵詞:云計(jì)算;大數(shù)據(jù)挖掘
1引言
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展以及各行業(yè)信息化的深入,業(yè)務(wù)數(shù)據(jù)從數(shù)量上還有類型上都發(fā)生了井噴式增長(zhǎng),特別是近幾年物聯(lián)網(wǎng)技術(shù)的普及,大量時(shí)序數(shù)據(jù)的產(chǎn)生標(biāo)識(shí)著人類已經(jīng)邁進(jìn)了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)不僅是數(shù)據(jù)量大,數(shù)據(jù)類型也極大的豐富。有傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),也有文本、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)帶來(lái)的潛在價(jià)值隨著大數(shù)據(jù)挖掘技術(shù)的發(fā)展?jié)u漸凸顯出來(lái)。同時(shí),基于云計(jì)算自身具備的計(jì)算存儲(chǔ)資源松耦合集成和彈性資源分配等特點(diǎn),能夠在很大程度上支撐構(gòu)建大數(shù)據(jù)挖掘體系所需的算力和存儲(chǔ)資源需求,降低運(yùn)行成本,安全可靠。
2大數(shù)據(jù)挖掘技術(shù)介紹
隨著信息系統(tǒng)數(shù)字化和智能化的不斷推進(jìn),數(shù)據(jù)規(guī)模也將呈指數(shù)級(jí)趨勢(shì)增長(zhǎng)。大數(shù)據(jù)挖掘?qū)⒊蔀橥苿?dòng)整個(gè)產(chǎn)業(yè)數(shù)字化升級(jí)的重要抓手和舉措。大數(shù)據(jù)顧名思義是指數(shù)量極大的數(shù)據(jù)匯聚而成,大數(shù)據(jù)包括業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù),電商交易數(shù)據(jù),物聯(lián)網(wǎng)技術(shù)產(chǎn)生的時(shí)序數(shù)據(jù),工業(yè)制造數(shù)據(jù)等等。這些數(shù)據(jù)中包含了極大的潛在價(jià)值有待開(kāi)發(fā),大數(shù)據(jù)挖掘技術(shù)指的是從海量數(shù)據(jù)中利用合適的模型挖掘出有用的信息反饋給原來(lái)的系統(tǒng),帶來(lái)更多的業(yè)務(wù)價(jià)值。大數(shù)據(jù)挖掘分成六個(gè)步驟:(1)定義問(wèn)題:在進(jìn)行數(shù)據(jù)挖掘之前,首先需要定義本次挖掘需要解決的問(wèn)題是什么,也就是說(shuō)要給本次數(shù)據(jù)挖掘定義明確的目標(biāo)。根據(jù)大數(shù)據(jù)定義的問(wèn)題選擇適合的模型,模型是否合適關(guān)系著本次挖掘是否成功。(2)建立大數(shù)據(jù)挖掘庫(kù):大數(shù)據(jù)挖掘的根本就是用存在的歷史數(shù)據(jù)訓(xùn)練選擇的模型,調(diào)整模型中可以改變的參數(shù)達(dá)到本次挖掘最好的效果,所以建立大數(shù)據(jù)挖掘庫(kù)至關(guān)重要。建立大數(shù)據(jù)挖掘庫(kù)首先要收集數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行描述,通過(guò)ETL技術(shù)對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)化和加載。保證數(shù)據(jù)庫(kù)中的數(shù)據(jù)是有效數(shù)據(jù)。(3)分析數(shù)據(jù):對(duì)準(zhǔn)備好的數(shù)據(jù)進(jìn)行分析,由于大數(shù)據(jù)的數(shù)據(jù)量非常巨大,用人工分析幾乎不可能。一般借助R語(yǔ)言或者Scala語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)數(shù)據(jù)中對(duì)挖掘預(yù)測(cè)有影響的字段,為接下來(lái)的工作做好準(zhǔn)備。(4)準(zhǔn)備數(shù)據(jù):通過(guò)數(shù)據(jù)分析后,可以鎖定對(duì)挖掘預(yù)測(cè)結(jié)果有明顯影響的字段,選擇這些數(shù)據(jù)并進(jìn)行記錄,如果有進(jìn)一步的需要,可以對(duì)這些數(shù)據(jù)進(jìn)行函數(shù)轉(zhuǎn)化后創(chuàng)造新的變量,并對(duì)這些新的變量進(jìn)行記錄,為后續(xù)的數(shù)據(jù)挖掘工作夯實(shí)數(shù)據(jù)基礎(chǔ)。(5)建立并訓(xùn)練模型:根據(jù)過(guò)程開(kāi)始定義的問(wèn)題建立挖掘模型,建立挖掘模型是一個(gè)迭代的過(guò)程,首先考察不同的模型以判斷是否對(duì)定義的問(wèn)題有用。先用一部分準(zhǔn)備的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,調(diào)整模型中的變量,然后在選擇另一部分?jǐn)?shù)據(jù)對(duì)模型進(jìn)行測(cè)試,如有需要,可以再選取一個(gè)數(shù)據(jù)集,對(duì)建立的模型進(jìn)行驗(yàn)證。(6)評(píng)價(jià)模型并進(jìn)行實(shí)施:訓(xùn)練好的模型要在實(shí)際的應(yīng)用中進(jìn)行推廣,這對(duì)模型是一次考驗(yàn)。訓(xùn)練模型中會(huì)存在某些假設(shè)的條件,如果這些條件與實(shí)現(xiàn)的應(yīng)用中條件一致,模型的評(píng)價(jià)度將會(huì)更高。評(píng)價(jià)模型首先要在小規(guī)模范圍內(nèi)進(jìn)行實(shí)施然后分析預(yù)測(cè)的結(jié)果是否與實(shí)際情況相符。如果模型的評(píng)價(jià)度較高,則可以在大范圍內(nèi)進(jìn)行推廣。模型的實(shí)施一般有兩種使用方法,一種是給數(shù)據(jù)分析人員或者是業(yè)務(wù)系統(tǒng)作為工具,根據(jù)實(shí)際的數(shù)據(jù)對(duì)業(yè)務(wù)趨勢(shì)進(jìn)行預(yù)測(cè);二是把評(píng)價(jià)過(guò)的模型應(yīng)用到不同的數(shù)據(jù)集合上。隨著近幾年互聯(lián)網(wǎng)的高速發(fā)展,業(yè)務(wù)數(shù)據(jù)量的急速增長(zhǎng),業(yè)務(wù)場(chǎng)景也變得越來(lái)越復(fù)雜,大數(shù)據(jù)挖掘過(guò)程中數(shù)據(jù)的存儲(chǔ),數(shù)據(jù)的計(jì)算對(duì)計(jì)算機(jī)的要求變得越來(lái)越高,大數(shù)據(jù)挖掘需要的基礎(chǔ)資源的成本也隨之迅速上升。
3云計(jì)算助力大數(shù)據(jù)挖掘
云計(jì)算能夠?yàn)榇髷?shù)據(jù)挖掘提供低成本的算力和存儲(chǔ)環(huán)境。云計(jì)算主要是通過(guò)虛擬化技術(shù)將CPU計(jì)算資源、硬件存儲(chǔ)和網(wǎng)絡(luò)資源虛擬成多個(gè)環(huán)境,根據(jù)計(jì)算和存儲(chǔ)資源的需求情況進(jìn)行動(dòng)態(tài)彈性管理,從而最大限度提升物理資源的復(fù)用價(jià)值,有效降低大數(shù)據(jù)挖掘的運(yùn)行成本。云計(jì)算能夠?yàn)榇髷?shù)據(jù)挖掘構(gòu)建一個(gè)高可用的算力及存儲(chǔ)運(yùn)行環(huán)境。為此利用云計(jì)算技術(shù)能夠完成大數(shù)據(jù)挖掘所需要的規(guī)模級(jí)數(shù)據(jù)存儲(chǔ)和計(jì)算功能。同時(shí),云計(jì)算提供了一個(gè)高度安全可靠的運(yùn)行環(huán)境,通常可以實(shí)現(xiàn)99.9%的高可用計(jì)算性能,能夠?yàn)榇髷?shù)據(jù)挖掘提供實(shí)時(shí)計(jì)算和安全保障,最大限度避免因電路故障或其它故障導(dǎo)致大數(shù)據(jù)挖掘服務(wù)停止運(yùn)行等問(wèn)題。云計(jì)算能夠?yàn)榇髷?shù)據(jù)挖掘構(gòu)建一個(gè)高擴(kuò)展的算力及存儲(chǔ)運(yùn)行環(huán)境?;谠朴?jì)算自身的高度開(kāi)放集成和擴(kuò)展性等特點(diǎn),能夠隨著大數(shù)據(jù)挖掘規(guī)模的變化來(lái)動(dòng)態(tài)增減算力和存儲(chǔ)資源,從而使得整個(gè)應(yīng)用集成系統(tǒng)構(gòu)建具有較高靈活性,從而有效降低算力資源和存儲(chǔ)資源的浪費(fèi),極大提升大數(shù)據(jù)挖掘系統(tǒng)的經(jīng)濟(jì)和環(huán)境效益。
4結(jié)束語(yǔ)
云計(jì)算技術(shù)的落地為大數(shù)據(jù)的存儲(chǔ)和計(jì)算提供了彈性的資源管理環(huán)境,按需分配大數(shù)據(jù)挖掘需要的資源,降低了大數(shù)據(jù)挖掘的成本。隨著云計(jì)算和大數(shù)據(jù)技術(shù)的不斷進(jìn)步,云計(jì)算和大數(shù)據(jù)技術(shù)的融合越來(lái)越緊密,云計(jì)算為大數(shù)據(jù)挖掘的快速發(fā)展提供良好的資源支持。
參考文獻(xiàn)
[1]鄧仲華,劉偉偉,陸穎雋.基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報(bào)理論與實(shí)踐,2015,38(07):103-108.
[2]饒正嬋,蒲天銀.云計(jì)算條件下的大數(shù)據(jù)挖掘內(nèi)涵及解決方案[J].電子技術(shù)與軟件工程,2018(13):154-155.
[3]孫培鋒.基于云計(jì)算的大數(shù)據(jù)挖掘體系架構(gòu)研究[J].信息技術(shù)與信息化,2018(09):167-169.
作者:肖婧 單位:山西潞安集團(tuán)余吾煤業(yè)有限責(zé)任公司