門戶網(wǎng)站分布式數(shù)據(jù)挖掘分析
時間:2022-08-07 08:41:20
導(dǎo)語:門戶網(wǎng)站分布式數(shù)據(jù)挖掘分析一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:數(shù)據(jù)采集與存儲、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘算法并行化、數(shù)據(jù)輸出與應(yīng)用等是數(shù)據(jù)挖掘的核心技術(shù)。在移動云時代,門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺架構(gòu)通常由數(shù)據(jù)源、大數(shù)據(jù)挖掘平臺和客戶端三大層級組成,并通過DNS超級、CDN云計算化、訪問記錄與日志分析、用戶數(shù)據(jù)動態(tài)分發(fā)網(wǎng)絡(luò)等實現(xiàn)數(shù)據(jù)挖掘與智能調(diào)度。
關(guān)鍵詞:門戶網(wǎng)站;分布式系統(tǒng);數(shù)據(jù)挖掘;云平臺架構(gòu)
在信息技術(shù)不斷發(fā)展的背景下,多樣化的數(shù)據(jù)信息通過網(wǎng)絡(luò)進行傳輸,數(shù)據(jù)的類型和規(guī)模均呈現(xiàn)出“爆炸式”增長。數(shù)據(jù)規(guī)模的不斷增長呼喚有效的數(shù)據(jù)處理和分析技術(shù),只有能夠整合數(shù)據(jù)資源并輸出有效數(shù)據(jù)產(chǎn)品的技術(shù)才能夠真正挖掘數(shù)據(jù)的價值,實現(xiàn)更高效的數(shù)據(jù)運用。數(shù)據(jù)挖掘技術(shù)作為一種在較高層次對數(shù)據(jù)進行高級查詢和篩選的技術(shù),具有數(shù)據(jù)記錄、整理、分析、輸出的能力,尤其是在云平臺的支持下,數(shù)據(jù)挖掘被賦予了更強的計算能力和更大的存儲空間[1]。通過云端進行更高效的數(shù)據(jù)運算和智能分析,能提升數(shù)據(jù)挖掘的報告質(zhì)量和輸出價值。
1云時代數(shù)據(jù)挖掘的核心技術(shù)
1.1數(shù)據(jù)采集與存儲。數(shù)據(jù)采集是進行數(shù)據(jù)挖掘的基礎(chǔ)階段,采集技術(shù)分為線上和線下兩種類型。線上數(shù)據(jù)采集主要通過網(wǎng)絡(luò)終端后臺實現(xiàn),例如檔案、日志、瀏覽、點擊等相關(guān)信息[2];線下數(shù)據(jù)采集則通過傳感器、磁卡片、RFID技術(shù)等進行,獲取用戶的線下行為數(shù)據(jù),從而建立用戶的行為數(shù)字數(shù)據(jù)庫。數(shù)據(jù)采集后,還須存儲已采集數(shù)據(jù),如設(shè)備存儲、數(shù)據(jù)庫存儲、云端存儲等。1.2數(shù)據(jù)預(yù)處理。采集的原始數(shù)據(jù)是非標(biāo)準(zhǔn)化的數(shù)據(jù),數(shù)據(jù)的類型、大小、字段等信息均不統(tǒng)一,這種數(shù)據(jù)特征不利于進行深度的數(shù)據(jù)挖掘,因此需要在數(shù)據(jù)采集和存儲的基礎(chǔ)上進行數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理需要對已采集和存儲的信息進行篩選、分類、集合、轉(zhuǎn)化等操作,進而將數(shù)據(jù)進行標(biāo)準(zhǔn)化加工,在一定格式規(guī)則下建立數(shù)據(jù)存儲與管理系統(tǒng)[2]。1.3數(shù)據(jù)挖掘算法并行化。經(jīng)過預(yù)處理,數(shù)據(jù)能夠呈現(xiàn)出標(biāo)準(zhǔn)化格式,可采用挖掘算法進行并行化數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的算法包括關(guān)聯(lián)算法、聚類算法、數(shù)據(jù)分類算法和回歸算法等,這些算法能夠?qū)?biāo)準(zhǔn)化的數(shù)據(jù)進行更為深入的整合和分析,探索數(shù)據(jù)內(nèi)部蘊含的規(guī)律和關(guān)聯(lián)關(guān)系,輸出具有一定邏輯的數(shù)據(jù)結(jié)果[2]。數(shù)據(jù)挖掘算法并行化,能提升數(shù)據(jù)挖掘效率,并與云平臺的運行規(guī)則適配。1.4數(shù)據(jù)輸出與應(yīng)用。通過云平臺分析的數(shù)據(jù),可以依據(jù)數(shù)據(jù)內(nèi)部的邏輯和規(guī)律輸出為可視化的數(shù)據(jù)報告和結(jié)果——通過數(shù)據(jù)可視化與數(shù)據(jù)轉(zhuǎn)化技術(shù),數(shù)據(jù)挖掘輸出的結(jié)果是規(guī)范的數(shù)據(jù)報告。需要指出的是,所有的數(shù)據(jù)輸出結(jié)果均應(yīng)可追索數(shù)據(jù)源,以便于報告使用者進行檢查與學(xué)習(xí)。云數(shù)據(jù)挖掘報告可在政府政策研究、公共管理、行業(yè)研究、消費者行為研究等領(lǐng)域廣泛應(yīng)用[2]。本文探討門戶網(wǎng)站對“云數(shù)據(jù)挖掘技術(shù)”的一種應(yīng)用架構(gòu),即門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺架構(gòu)。
2門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺架構(gòu)
云平臺又稱云計算平臺,是能夠進行數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)整合的一個服務(wù)平臺。云平臺的基礎(chǔ)服務(wù)內(nèi)容包括IaaS(基礎(chǔ)設(shè)施即服務(wù))、PaaS(平臺即服務(wù))、SaaS(軟件即服務(wù))三個方面。通過三方面的服務(wù)內(nèi)容,云平臺能夠?qū)⒃贫说臄?shù)據(jù)通過架構(gòu)層面的軟硬件服務(wù)設(shè)施進行基礎(chǔ)搭建,并在應(yīng)用層進行智能化的資源調(diào)度、并行計算和數(shù)據(jù)存儲,最后在平臺層通過應(yīng)用代碼、定制代碼等工具進行最終的數(shù)據(jù)挖掘結(jié)果輸出,從而完成對海量云端數(shù)據(jù)的高效挖掘[1]。分布式系統(tǒng)是相對于集中式系統(tǒng)而言的一種弱化集中處理性能的內(nèi)聚性軟件系統(tǒng)。一方面,分布式系統(tǒng)具有內(nèi)聚性,系統(tǒng)內(nèi)部的數(shù)據(jù)庫和不同模塊能夠進行自治化的數(shù)據(jù)處理,而不需要經(jīng)過集中性的決策和處理過程,這在一定程度上能夠提升項目完成效率;另一方面,分布式系統(tǒng)具備全局化的透明性處理功能,能夠基于系統(tǒng)內(nèi)部的資源整體進行資源的整合和調(diào)配,在用戶需求和相關(guān)指令的基礎(chǔ)上,對于系統(tǒng)網(wǎng)絡(luò)內(nèi)部的資源進行自由的調(diào)度,匹配出最高效的資源分配和數(shù)據(jù)處理流程,從而實現(xiàn)平臺目標(biāo)。目前最為流行的分布式數(shù)據(jù)挖掘云平臺架構(gòu)是Hadoop平臺,其能夠通過多樣的系統(tǒng)工具實現(xiàn)高效的數(shù)據(jù)處理,并通過HDFS進行數(shù)據(jù)存儲,在并行化模式下進行海量數(shù)據(jù)的處理和運算,通過強大的服務(wù)器來支持眾多客戶端應(yīng)用,實現(xiàn)對硬件成本、維護成本的控制[3]。門戶網(wǎng)站Hadoop分布式數(shù)據(jù)挖掘云平臺架構(gòu)主要由數(shù)據(jù)源、大數(shù)據(jù)挖掘平臺和客戶端三個層級組成。2.1數(shù)據(jù)源層。數(shù)據(jù)源層是門戶網(wǎng)站數(shù)據(jù)挖掘的底層,其能夠整合來自云平臺上的多樣化數(shù)據(jù),涵蓋非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)類型。在實現(xiàn)充分的云計算平臺互聯(lián)互通的情況下,數(shù)據(jù)源層能夠?qū)佣鄠€云平臺的數(shù)據(jù),實現(xiàn)對于海量數(shù)據(jù)的整合和存儲,從而為門戶網(wǎng)站數(shù)據(jù)挖掘提供充分的數(shù)據(jù)保障。2.2大數(shù)據(jù)挖掘平臺層。大數(shù)據(jù)挖掘平臺層是門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺架構(gòu)的核心技術(shù)層,也是多樣化數(shù)據(jù)處理工具的整合技術(shù)平臺。預(yù)處理工具是對數(shù)據(jù)源數(shù)據(jù)進行標(biāo)準(zhǔn)化處理的工具,包括數(shù)據(jù)ETL(提取、轉(zhuǎn)化和加載)工具、多模態(tài)實體識別工具等。(1)基于Hadoop分布式系統(tǒng),MapReduce工具能夠進行數(shù)據(jù)的分析式計算,在任務(wù)拆分的基礎(chǔ)上,分配運算資源,從而進行高效的數(shù)據(jù)分析;(2)HDFS作為分布式文件系統(tǒng),能夠?qū)A繑?shù)據(jù)進行存儲,通過文件分割和數(shù)據(jù)節(jié)點分配來提升存儲的集約性和安全性;(3)數(shù)據(jù)挖掘云平臺還能夠搭載數(shù)據(jù)流處理、復(fù)雜事件處理、R語言分析、聯(lián)系分析處理(OLAP)等工具,進一步提升了門戶網(wǎng)站數(shù)據(jù)挖掘的輸出效果和運行效率。2.3客戶端層。通過一系列大數(shù)據(jù)挖掘工具和相關(guān)技術(shù),海量的云平臺數(shù)據(jù)能夠通過計算機語言進行高效處理。在客戶端層,數(shù)據(jù)處理的結(jié)果能夠通過可視化工具、人機交互技術(shù)、數(shù)據(jù)源技術(shù)等進行加工,從而轉(zhuǎn)換成能夠被人工識別和閱讀的數(shù)據(jù)報告。在門戶網(wǎng)站后臺,客戶端能夠?qū)哟髷?shù)據(jù)平臺,并進行數(shù)據(jù)結(jié)果的轉(zhuǎn)化,門戶網(wǎng)站后臺得到的是經(jīng)過可視化處理的數(shù)據(jù)報告,并能夠通過數(shù)據(jù)源的接口獲得相關(guān)數(shù)據(jù)的原始信息。
3門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺的實現(xiàn)機制
如圖1所示,通過DNS超級、CDN云計算化、訪問記錄與日志分析、用戶數(shù)據(jù)動態(tài)分發(fā)網(wǎng)絡(luò)等實現(xiàn)數(shù)據(jù)挖掘與智能調(diào)度[2]。3.1DNS超級。對門戶網(wǎng)站而言,數(shù)據(jù)挖掘的主要內(nèi)容是對于用戶瀏覽行為和點擊數(shù)據(jù)的分析。在用戶對門戶網(wǎng)站進行訪問之后,通過網(wǎng)址和域名進行用戶行為的采集,獲取用戶的地理位置、連接入口、設(shè)備等相關(guān)數(shù)據(jù)。通過DNS(域名系統(tǒng))超級能夠?qū)⒂蛎到y(tǒng)與云平臺進行有效對接,從而迅速完成對門戶網(wǎng)站相關(guān)數(shù)據(jù)的采集和存儲。在部分云平臺內(nèi)部,還能夠?qū)崿F(xiàn)IP地址,更有利于加強對服務(wù)器和客戶端的對接,實現(xiàn)更有效的云計算。3.2CDN云計算化。CDN是指內(nèi)容分發(fā)網(wǎng)絡(luò)(ContentDeliveryNetwork),其能夠?qū)⑦\算的內(nèi)容進行合理的分配,按照數(shù)據(jù)處理和計算的狀態(tài),將相關(guān)內(nèi)容分發(fā)到更為空閑的網(wǎng)絡(luò)通道,從而避免網(wǎng)絡(luò)傳輸?shù)膿矶?提高處理效率。CDN云計算化,能夠通過云計算技術(shù)對網(wǎng)絡(luò)資源和計算能力進行整合調(diào)配,從橫向和縱向上對整個處理過程進行技術(shù)的擴展,從而提升系統(tǒng)運行效率[4]。3.3訪問記錄與日志分析。門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺能夠在資源對接的基礎(chǔ)上,對用戶的網(wǎng)站訪問記錄和后臺日志進行一體化存儲,相關(guān)數(shù)據(jù)全部收錄到數(shù)據(jù)倉庫中,以便于深度數(shù)據(jù)挖掘。在日志分析和數(shù)據(jù)預(yù)處理的基礎(chǔ)上,云平臺還能夠進行分布式的數(shù)據(jù)挖掘,輸出可提升門戶網(wǎng)站傳播效果和闡述用戶行為規(guī)律的數(shù)據(jù)報告。3.4用戶數(shù)據(jù)動態(tài)分發(fā)。CDN實現(xiàn)了站點的全網(wǎng)覆蓋,網(wǎng)絡(luò)內(nèi)容分發(fā)的過程也是一個可以動態(tài)調(diào)整的過程。在門戶網(wǎng)站傳統(tǒng)的網(wǎng)絡(luò)服務(wù)中,服務(wù)的范圍集中于某一特定區(qū)域,當(dāng)出現(xiàn)網(wǎng)絡(luò)中斷或網(wǎng)絡(luò)擁堵等情況時,會出現(xiàn)該區(qū)域的網(wǎng)絡(luò)癱瘓。在分布式數(shù)據(jù)挖掘云平臺支撐下,CDN能夠合理安排分發(fā)的網(wǎng)絡(luò)通道,即使某一節(jié)點的網(wǎng)絡(luò)出現(xiàn)故障,也能夠通過其他可行網(wǎng)絡(luò)的傳輸保障網(wǎng)站訪問和數(shù)據(jù)采集的正常進行[5]。由此可見,門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺不僅能夠在日常運行的基礎(chǔ)上完成數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)挖掘的工作,還能夠?qū)崿F(xiàn)智能調(diào)度,極大程度的提高了門戶網(wǎng)站的運行效率,優(yōu)化了用戶訪問體驗。
4結(jié)語
在大數(shù)據(jù)、云計算、機器學(xué)習(xí)等眾多信息科技不斷創(chuàng)新和發(fā)展的背景下,門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺技術(shù)能夠?qū)崿F(xiàn)數(shù)據(jù)挖掘、提升門戶網(wǎng)站的運行效率。需要指出的是,由于數(shù)據(jù)就是資產(chǎn),數(shù)據(jù)挖掘是創(chuàng)新和發(fā)展的重要工具,因此,門戶網(wǎng)站在關(guān)注數(shù)據(jù)挖掘的技術(shù)與效果的同時,還要關(guān)注用戶的隱私保護,力避數(shù)據(jù)安全風(fēng)險。
參考文獻
[1]王小妮,高學(xué)東,倪曉明.基于云計算的分布式數(shù)據(jù)挖掘平臺架構(gòu)[J].北京信息科技大學(xué)學(xué)報(自然科學(xué)版),2011,(5):19-24.
[2]程發(fā)洲.基于云計算的大數(shù)據(jù)挖掘系統(tǒng)架構(gòu)[J].東莞理工學(xué)院學(xué)報,2017,(3):39-43.
[3]陳志雄.基于hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)的設(shè)計探討[J].數(shù)字技術(shù)與應(yīng)用,2017,(1):179.
[4]王微.一種基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)設(shè)計研究[J].電子制作,2017,(15):82-83.
[5]江舞山.基于網(wǎng)格的分布式數(shù)據(jù)挖掘體系結(jié)構(gòu)的研究[D].重慶大學(xué),2006.
作者:陳利萍 單位:湖南化工職業(yè)技術(shù)學(xué)院