云計算數(shù)據(jù)挖掘平臺設(shè)計研究
時間:2022-09-15 11:09:12
導(dǎo)語:云計算數(shù)據(jù)挖掘平臺設(shè)計研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:在云計算背景下,海量數(shù)據(jù)之間會相互影響,影響了既定的關(guān)聯(lián)原則,線性思維占據(jù)主導(dǎo)性地位,數(shù)據(jù)挖掘效果較差。簡要分析當前傳統(tǒng)思維方式下數(shù)據(jù)挖掘平臺存在的問題,并將該思維方式轉(zhuǎn)變?yōu)榉植际剿季S,介紹了在分布式思維下建立數(shù)據(jù)挖掘平臺的優(yōu)勢,并分析建立、設(shè)計方案。該方案可以有效解決冗余干擾問題,計算出區(qū)域內(nèi)部的相似程度,在分布式思維數(shù)據(jù)之間產(chǎn)生關(guān)聯(lián)。
關(guān)鍵詞:分布式思維,云計算數(shù)據(jù)挖掘平臺,架構(gòu)設(shè)計
云計算技術(shù)應(yīng)用價值較高,具有靈活性的特點。但海量數(shù)據(jù)之間會產(chǎn)生相互干擾,影響了既定的關(guān)聯(lián)原則,需要提出一種基于分布式自適應(yīng)的云計算數(shù)據(jù)挖掘算法,提高挖掘精度,改善傳統(tǒng)算法中存在的問題,完善仿真實驗性能[1]。
1線性思維下數(shù)據(jù)挖掘平臺存在的問題分析
目前,我國處于信息化時代,使用互聯(lián)網(wǎng)、移動設(shè)備端查詢信息會產(chǎn)生較多瀏覽痕跡、數(shù)據(jù)等,如何存儲、處理及挖掘數(shù)據(jù)是重要的技術(shù)問題。線性數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法是數(shù)據(jù)挖掘平臺設(shè)計的理論基礎(chǔ),需要運用智能化方式處理數(shù)據(jù)庫中的信息,運用可視化技術(shù)、統(tǒng)計學(xué)知識、數(shù)據(jù)庫技術(shù)、模糊識別、深度學(xué)習(xí)、機器學(xué)習(xí)和人工智能等多種領(lǐng)域的知識解決一系列的決策問題。以線性思維為主的數(shù)據(jù)挖掘平臺的設(shè)計流程主要包含結(jié)果表達、數(shù)據(jù)挖掘及準備數(shù)據(jù)三個過程。數(shù)據(jù)挖掘平臺的建立主要分為三個步驟,首先,應(yīng)確定平臺建立目標及搜集信息的方向,為尋找數(shù)據(jù)挖掘渠道、數(shù)據(jù)處理方式做鋪墊。實驗結(jié)果具有不可預(yù)測性的特征,技術(shù)人員需要熟練掌握相關(guān)知識,使得相關(guān)領(lǐng)域的用戶及專家明確搜索需求。其次,需要做好數(shù)據(jù)準備工作,主要包括選擇數(shù)據(jù)、預(yù)處理數(shù)據(jù)和轉(zhuǎn)化數(shù)據(jù)三個關(guān)鍵步驟??梢酝ㄟ^對數(shù)據(jù)的再加工策略提高數(shù)據(jù)挖掘質(zhì)量,通過分析數(shù)據(jù)的種類,運用數(shù)學(xué)模型進行數(shù)據(jù)重建對比。再次,需要建立數(shù)據(jù)之間的關(guān)聯(lián)性,通過對比分析得到多組數(shù)據(jù)的共同點,結(jié)合用戶瀏覽信息、實際需求及潛在需求,使用算法尋找特定的模型,創(chuàng)建數(shù)據(jù)挖掘模型。利用智能化工具完成最終的挖掘任務(wù)。由此可見,在線性思維情況下,選擇某組數(shù)據(jù)進行測試時應(yīng)嘗試所有可能的方式,該組數(shù)據(jù)適宜的關(guān)聯(lián)規(guī)則在計算過程中逐漸與原本的關(guān)聯(lián)規(guī)則違背,在尋求最優(yōu)化解決方案時,計算效率較低。
2分布式數(shù)據(jù)挖掘平臺結(jié)構(gòu)設(shè)計分析
云計算互聯(lián)網(wǎng)平臺主要有兩個參與主體,包括云和端,可以擺脫原有架構(gòu)的局限性,簡化網(wǎng)站操作人員及訪問人員的操作步驟,創(chuàng)造出更大價值[2]。
2.1內(nèi)容分發(fā)網(wǎng)絡(luò)實現(xiàn)云計算的技術(shù)流派
分配內(nèi)容網(wǎng)絡(luò)能夠避免受到互聯(lián)網(wǎng)中可能會對數(shù)據(jù)傳輸穩(wěn)定性造成影響的緩解,篩選出核心內(nèi)容,將其傳遞到核心節(jié)點中,提高內(nèi)容傳輸過程的穩(wěn)定性。從商業(yè)角度出發(fā),CDN即批發(fā)即零售帶寬及柜機資源的過程。為了降低系統(tǒng)的壓力值,需要在互聯(lián)網(wǎng)的節(jié)點處添加新資源,使得CDN廠商能夠從此處承包,也可以從各地IDC處用優(yōu)惠的價格批發(fā)各種資源,再用零售價格賣給用戶,利潤空間較大。分配內(nèi)容網(wǎng)絡(luò)能夠有效突破性能平靜,確保分發(fā)內(nèi)容的穩(wěn)定性與可靠性。
2.2DNS網(wǎng)關(guān)級別的超級代理
為了管理大量網(wǎng)站信息,云計算平臺可以通過DNS的智能切換技術(shù),在使用較為普遍的CS結(jié)構(gòu)兩側(cè)使用智能化技術(shù),提高操作過程的智能化水平,優(yōu)化操作結(jié)構(gòu),縮短操作反應(yīng)實踐,創(chuàng)建出新一代的云計算互聯(lián)網(wǎng)應(yīng)用平臺。此外,運用云計算的方式可以創(chuàng)建出DNS服務(wù)器集群,具有較大使用價值。
2.3網(wǎng)站訪問日志分析
每個網(wǎng)站都會自主管理自己的日志訪問記錄信息,需要提升其規(guī)范性。通常情況下,一條標準日志的標準形式為“源地址—訪問時間—訪問形式—網(wǎng)址名稱—訪問類型—瀏覽器類型—操作系統(tǒng)內(nèi)容—目的操作地址”??梢詣?chuàng)建出一個數(shù)據(jù)倉庫,在其中存放所有網(wǎng)站及用戶的訪問信息,完成數(shù)據(jù)挖掘任務(wù),革新分配內(nèi)容形式。網(wǎng)站會分析用戶的網(wǎng)絡(luò)行為特點,制定出相應(yīng)的查詢及反饋模式,增強數(shù)據(jù)結(jié)構(gòu)性能,提高系統(tǒng)工作效率。
2.4網(wǎng)站內(nèi)容的動態(tài)分發(fā)
除了超級大網(wǎng),普通網(wǎng)站性能會隨地域特點產(chǎn)生變化,可以根據(jù)用戶所處地理位置信息將內(nèi)容分配到代理處。在完成分配任務(wù)之后,會基于云計算的方式部署互聯(lián)網(wǎng),訪問最近的地址,縮短用戶的訪問等待時間,提高用戶使用互聯(lián)網(wǎng)的效率。
2.5根據(jù)用戶行為進行智能調(diào)度
數(shù)據(jù)倉庫中儲存著大量的用戶行為特征信息。超級代理的架構(gòu)將用戶的行為特點作為搜索索引,避免運用DNS解析用戶訪問過程,只有經(jīng)過多次跳轉(zhuǎn)之后才可以訪問目標網(wǎng)站。網(wǎng)絡(luò)用戶訪問網(wǎng)站具有固定性,總數(shù)量較少,可以將其操作行為作為重要依據(jù),設(shè)計出智能調(diào)度和分配機制,提高訪問速度,增強網(wǎng)站的最大承受能力,豐富網(wǎng)站功能,給用戶帶來良好的體驗感[3]。
3分布式數(shù)據(jù)挖掘平臺中相關(guān)軟件算法設(shè)計分析
冗余消除算法可對數(shù)據(jù)進行分類處理,消除傳統(tǒng)算法中數(shù)據(jù)挖掘平臺信息存在多余、種類繁雜或無關(guān)性、干擾性較強等情況,優(yōu)化傳統(tǒng)算法下建立的數(shù)據(jù)挖掘平臺的不足之處。
3.1冗余消除算法的設(shè)計規(guī)則分析
冗余消除算法能夠消除在云計算方式下由于數(shù)據(jù)關(guān)聯(lián)性而產(chǎn)生的冗余干擾,在商業(yè)化推薦系統(tǒng)中具有重要價值。首先,基于用戶的冗余消除算法需要對用戶的日常瀏覽信息進行收集,判斷用戶個人需求并進行評分,使得同等分值之間的用戶需求共享推薦。其次,基于相互的冗余消除算法會將所有用戶瀏覽商品、購買商品次數(shù)作為判斷其對商品的喜好程度,并推薦類似商品,計算該商品種類中,用戶喜好商品與其他的相似程度。
3.2協(xié)同過濾相似度計算方法
使用向量模型計算出數(shù)據(jù)的相似程度,計算出向量之間的距離,根據(jù)遠近成都判斷相似度高低。為了判斷關(guān)聯(lián)程度,可以計算出兩個向量的相關(guān)關(guān)系。對于稀疏性較高的用戶,該矩陣的精確程度較低,難以達到理想效果,可以運用余弦相似度算法解決此類問題。
3.3冗余消除過程設(shè)計
若計算結(jié)果較為相似,可分析數(shù)據(jù)的計算過程及初始數(shù)據(jù)是否存在相似部分,給每個變量分配一定權(quán)重,設(shè)置調(diào)和參數(shù)。平均絕對誤差是衡量用戶實際數(shù)值和測量值之間的絕對誤差水平,是重要的冗余消除算法評判標準之一。命中率標準包括查準率和查全率,網(wǎng)絡(luò)數(shù)據(jù)分為推薦和不推薦兩個部分。以用戶搜索查找商品為例,搜索引擎中輸入的是全類商品或精準到某品牌、某款式,代表著該用戶對于同類商品的需求程度和該種商品的喜好,反映其對于數(shù)據(jù)查找的廣泛性和搜索精準性的需要,依據(jù)此可選擇是否推薦同類商品,若精準性需求較高,則不建議推薦。在選擇算法的過程中,可積極引入新式算法降低權(quán)重,提高數(shù)據(jù)挖掘平臺的精確度,使其分析數(shù)據(jù)能力提升。
4結(jié)語
互聯(lián)網(wǎng)信息技術(shù)處于不斷發(fā)展過程中,如何處理海量數(shù)據(jù)信息是重大難題。可以基于大數(shù)據(jù)處理技術(shù)建立起數(shù)據(jù)處理與挖掘平臺,使用bookcrossing數(shù)據(jù)集進行測試,運用獎券的方式改進傳統(tǒng)算法模型,增強改進后算法的計算能力,使其貼合現(xiàn)代社會需求,更加便捷化、智能化。
參考文獻
[1]高鋒陽,曾林,李昭君,等.分布式智能協(xié)同和云計算相結(jié)合的配電網(wǎng)故障選線新方法[J].電網(wǎng)技術(shù),2021,45(8):2969-2978.
[2]周東清,彭世玉,程春田,等.梯級水電站群長期優(yōu)化調(diào)度云計算隨機動態(tài)規(guī)劃算法[J].中國電機工程學(xué)報,2017,37(12):3437-3448;3671.
[3]馬瑞,周謝,彭舟,等.考慮氣溫因素的負荷特性統(tǒng)計指標關(guān)聯(lián)特征數(shù)據(jù)挖掘[J].中國電機工程學(xué)報,2015,35(1):43-51.
作者:王哲 趙爽 單位:鐵法煤業(yè)集團大數(shù)據(jù)運營有限責(zé)任公司