物聯(lián)網(wǎng)數(shù)據(jù)挖掘論文
時間:2022-03-26 03:03:46
導(dǎo)語:物聯(lián)網(wǎng)數(shù)據(jù)挖掘論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1物聯(lián)網(wǎng)數(shù)據(jù)挖掘流程
物聯(lián)網(wǎng)數(shù)據(jù)挖掘處理功能需要在Hadoop平臺和Map/Reduce模式基礎(chǔ)上進行,對此需要劃分2個不同層面的操作流程。
1.1Hadoop平臺的具體操作流程
(1)對物聯(lián)網(wǎng)中的RFID數(shù)據(jù)進行過濾、轉(zhuǎn)換、合并的處理,并在分布式系統(tǒng)HDFS中保存PML文件形式的數(shù)據(jù)。同時,可采取副本策略來處理PML文件,在同一機構(gòu)的不同節(jié)點或不同機構(gòu)的某一節(jié)點上保存PML文件中的2-3個副本,進而可實現(xiàn)對存儲、處理、節(jié)點失效問題的有效解決。
(2)在執(zhí)行任務(wù)過程中,創(chuàng)建和管理控制是Master(主控程序)的主要工作,當(dāng)Worker處于空閑狀態(tài)時會接收到有關(guān)的分配任務(wù),需與Map/Reduce互相合作實現(xiàn)操作處理,處理的最終結(jié)果由Master來歸并,同時將反饋結(jié)果傳送給用戶。
1.2Map/Reduce的具體操作流程
(1)根據(jù)參數(shù)在Map/Reduce思想指導(dǎo)下對輸入文件進行分割處理,使其細(xì)化為M塊(16-64M大小范圍)。
(2)Master、Worker、Map操作(M個)、Reduce操作(R個)是構(gòu)成執(zhí)行程序的主要部分,其中Map/Reduce的處理任務(wù)會由Master伴隨物聯(lián)網(wǎng)的快速發(fā)展和廣泛應(yīng)用,人們可以有效利用物聯(lián)網(wǎng)來實現(xiàn)信息交換和通信的目的,不過物聯(lián)網(wǎng)海量數(shù)據(jù)的日益增多大大降低了物聯(lián)網(wǎng)服務(wù)的質(zhì)量。在此,對基于Apriori算法進行物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究。摘要將其分配給空閑的Worker。
(3)在處理Map任務(wù)時,Worker會讀取處理中的數(shù)據(jù),并向Map函數(shù)傳送<key,value>,而后產(chǎn)生中間結(jié)果在內(nèi)存中緩存且定時向本地硬盤傳送。此外,依據(jù)分區(qū)函數(shù)將中間結(jié)果分割為R塊區(qū),利用Master將本地硬盤接收到的數(shù)據(jù)位置信息傳送給Reduce函數(shù)。
(4)ReduceWorker根據(jù)Master所傳送的文件信息采用遠程讀取方式來操作,以在本地文件中找到對應(yīng)的文件,對文件的中間key進行有序排列,并利用遠程發(fā)送信息給具體執(zhí)行的Reduce。
(5)ReduceWorker依據(jù)key排序后的中間數(shù)據(jù)向Reduce函數(shù)傳送與key對應(yīng)的中間結(jié)果集,而最后的結(jié)果需采取最終輸出文件來進行編寫。
(6)當(dāng)Map、Reduce的任務(wù)全部完成之后,MapReduce將回歸到用戶程序的調(diào)用點處,同時以Master對用戶程序進行激活。
2基于Apriori算法的物聯(lián)網(wǎng)數(shù)據(jù)挖掘
2.1Apriori數(shù)據(jù)挖掘原理和操作流程
Apriori是提升物聯(lián)網(wǎng)數(shù)據(jù)挖掘功能的一種最有效算法,其原理是在K項集中以逐層搜索迭代的方式來探索。具體的操作流程包括:
(1)掃描數(shù)據(jù)集以生成頻繁1-項集L1。
(2)通過L1來探索頻繁項集L2,采用不斷迭代的方式來持續(xù)探索,直至頻繁項集是空集。
2.2K次循環(huán)搜索后的數(shù)據(jù)挖掘流程
當(dāng)已完成了K次循環(huán)搜索時,還需要進行2個數(shù)據(jù)挖掘的操作流程:(1)在LK-1生成CK(候選集)之后,開展JOIN操作。(2)支持度統(tǒng)計和剪枝的操作依據(jù)Apriori性質(zhì)來進行,而后使得CK生成LK(頻繁集)。為提高物聯(lián)網(wǎng)數(shù)據(jù)挖掘的效率,節(jié)省系統(tǒng)的時間和內(nèi)存消耗,在Apriori算法基礎(chǔ)上還需要借鑒和移植云計算平臺的分布式并行計算性質(zhì)。如此以實現(xiàn)Hadoop架構(gòu)的建立,在掃描數(shù)據(jù)庫查找頻繁項集中得到的并聯(lián)規(guī)則需要存儲在Hadoop架構(gòu)中。同時,為取得各個計算節(jié)點上的局部頻繁項集,各個DataNode節(jié)點需要經(jīng)歷并行操作的掃描處理,并使用Master來統(tǒng)計和確定實際全局的支持度、頻繁項集。
2.3Apriori算法Map/Reduce化的處理流程
上述提及基于Apriori算法的物聯(lián)網(wǎng)數(shù)據(jù)挖掘需借助于Map/Reduce模式,其數(shù)據(jù)挖掘功能的實現(xiàn)還應(yīng)Map/Reduce化Apriori算法。主要的處理流程包括:
(1)用戶提出挖掘服務(wù)的請求,且由用戶來設(shè)置Apriori所需的數(shù)據(jù),如最小支持度、置信度。
(2)當(dāng)Master接收到請求后,通過NameNode來進行PML文件的申請,而后逐步完成訪問空閑節(jié)點列表、向空閑的DataNode分配任務(wù)、調(diào)度和并行處理各個DataNode需要的存儲節(jié)點算法。
(3)運用Map函數(shù)來處理每個DataNode的<key,value>對映射、新鍵值對,以CnK(用1表示每一個CnK的支持度)來表示所產(chǎn)生的一個局部候選頻繁K項集。
(4)通過Reduce函數(shù)來實現(xiàn)調(diào)用計算,對每個DataNode節(jié)點上相同候選項集的支持度進行累加,以產(chǎn)生一個實際的支持度,將其與最小支持度(用戶申請時所設(shè)置)進行比較,進而用LnK表示所生成的局部頻繁K項集的集合。
(5)對所有的處理結(jié)果進行合并,從而實現(xiàn)全局頻繁K項集LK的生成。
3結(jié)論
綜上所述,根據(jù)物聯(lián)網(wǎng)數(shù)據(jù)的特點,以及物聯(lián)網(wǎng)海量數(shù)據(jù)挖掘問題的存在情況。我們積極將Apriori算法應(yīng)用于物流網(wǎng)數(shù)據(jù)挖掘,這對于提高物聯(lián)網(wǎng)海量數(shù)據(jù)挖掘功能和效率有較大的作用及意義,而物流網(wǎng)數(shù)據(jù)挖掘問題也能得到有效的解決。
作者:海海洋單位:汕尾職業(yè)技術(shù)學(xué)院
- 上一篇:郵政競聘演講稿專題8篇
- 下一篇:漏洞庫數(shù)據(jù)挖掘論文