物聯(lián)網(wǎng)數(shù)據(jù)挖掘論文

時(shí)間:2022-03-26 03:03:46

導(dǎo)語:物聯(lián)網(wǎng)數(shù)據(jù)挖掘論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

物聯(lián)網(wǎng)數(shù)據(jù)挖掘論文

1物聯(lián)網(wǎng)數(shù)據(jù)挖掘流程

物聯(lián)網(wǎng)數(shù)據(jù)挖掘處理功能需要在Hadoop平臺(tái)和Map/Reduce模式基礎(chǔ)上進(jìn)行,對此需要?jiǎng)澐?個(gè)不同層面的操作流程。

1.1Hadoop平臺(tái)的具體操作流程

(1)對物聯(lián)網(wǎng)中的RFID數(shù)據(jù)進(jìn)行過濾、轉(zhuǎn)換、合并的處理,并在分布式系統(tǒng)HDFS中保存PML文件形式的數(shù)據(jù)。同時(shí),可采取副本策略來處理PML文件,在同一機(jī)構(gòu)的不同節(jié)點(diǎn)或不同機(jī)構(gòu)的某一節(jié)點(diǎn)上保存PML文件中的2-3個(gè)副本,進(jìn)而可實(shí)現(xiàn)對存儲(chǔ)、處理、節(jié)點(diǎn)失效問題的有效解決。

(2)在執(zhí)行任務(wù)過程中,創(chuàng)建和管理控制是Master(主控程序)的主要工作,當(dāng)Worker處于空閑狀態(tài)時(shí)會(huì)接收到有關(guān)的分配任務(wù),需與Map/Reduce互相合作實(shí)現(xiàn)操作處理,處理的最終結(jié)果由Master來歸并,同時(shí)將反饋結(jié)果傳送給用戶。

1.2Map/Reduce的具體操作流程

(1)根據(jù)參數(shù)在Map/Reduce思想指導(dǎo)下對輸入文件進(jìn)行分割處理,使其細(xì)化為M塊(16-64M大小范圍)。

(2)Master、Worker、Map操作(M個(gè))、Reduce操作(R個(gè))是構(gòu)成執(zhí)行程序的主要部分,其中Map/Reduce的處理任務(wù)會(huì)由Master伴隨物聯(lián)網(wǎng)的快速發(fā)展和廣泛應(yīng)用,人們可以有效利用物聯(lián)網(wǎng)來實(shí)現(xiàn)信息交換和通信的目的,不過物聯(lián)網(wǎng)海量數(shù)據(jù)的日益增多大大降低了物聯(lián)網(wǎng)服務(wù)的質(zhì)量。在此,對基于Apriori算法進(jìn)行物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究。摘要將其分配給空閑的Worker。

(3)在處理Map任務(wù)時(shí),Worker會(huì)讀取處理中的數(shù)據(jù),并向Map函數(shù)傳送<key,value>,而后產(chǎn)生中間結(jié)果在內(nèi)存中緩存且定時(shí)向本地硬盤傳送。此外,依據(jù)分區(qū)函數(shù)將中間結(jié)果分割為R塊區(qū),利用Master將本地硬盤接收到的數(shù)據(jù)位置信息傳送給Reduce函數(shù)。

(4)ReduceWorker根據(jù)Master所傳送的文件信息采用遠(yuǎn)程讀取方式來操作,以在本地文件中找到對應(yīng)的文件,對文件的中間key進(jìn)行有序排列,并利用遠(yuǎn)程發(fā)送信息給具體執(zhí)行的Reduce。

(5)ReduceWorker依據(jù)key排序后的中間數(shù)據(jù)向Reduce函數(shù)傳送與key對應(yīng)的中間結(jié)果集,而最后的結(jié)果需采取最終輸出文件來進(jìn)行編寫。

(6)當(dāng)Map、Reduce的任務(wù)全部完成之后,MapReduce將回歸到用戶程序的調(diào)用點(diǎn)處,同時(shí)以Master對用戶程序進(jìn)行激活。

2基于Apriori算法的物聯(lián)網(wǎng)數(shù)據(jù)挖掘

2.1Apriori數(shù)據(jù)挖掘原理和操作流程

Apriori是提升物聯(lián)網(wǎng)數(shù)據(jù)挖掘功能的一種最有效算法,其原理是在K項(xiàng)集中以逐層搜索迭代的方式來探索。具體的操作流程包括:

(1)掃描數(shù)據(jù)集以生成頻繁1-項(xiàng)集L1。

(2)通過L1來探索頻繁項(xiàng)集L2,采用不斷迭代的方式來持續(xù)探索,直至頻繁項(xiàng)集是空集。

2.2K次循環(huán)搜索后的數(shù)據(jù)挖掘流程

當(dāng)已完成了K次循環(huán)搜索時(shí),還需要進(jìn)行2個(gè)數(shù)據(jù)挖掘的操作流程:(1)在LK-1生成CK(候選集)之后,開展JOIN操作。(2)支持度統(tǒng)計(jì)和剪枝的操作依據(jù)Apriori性質(zhì)來進(jìn)行,而后使得CK生成LK(頻繁集)。為提高物聯(lián)網(wǎng)數(shù)據(jù)挖掘的效率,節(jié)省系統(tǒng)的時(shí)間和內(nèi)存消耗,在Apriori算法基礎(chǔ)上還需要借鑒和移植云計(jì)算平臺(tái)的分布式并行計(jì)算性質(zhì)。如此以實(shí)現(xiàn)Hadoop架構(gòu)的建立,在掃描數(shù)據(jù)庫查找頻繁項(xiàng)集中得到的并聯(lián)規(guī)則需要存儲(chǔ)在Hadoop架構(gòu)中。同時(shí),為取得各個(gè)計(jì)算節(jié)點(diǎn)上的局部頻繁項(xiàng)集,各個(gè)DataNode節(jié)點(diǎn)需要經(jīng)歷并行操作的掃描處理,并使用Master來統(tǒng)計(jì)和確定實(shí)際全局的支持度、頻繁項(xiàng)集。

2.3Apriori算法Map/Reduce化的處理流程

上述提及基于Apriori算法的物聯(lián)網(wǎng)數(shù)據(jù)挖掘需借助于Map/Reduce模式,其數(shù)據(jù)挖掘功能的實(shí)現(xiàn)還應(yīng)Map/Reduce化Apriori算法。主要的處理流程包括:

(1)用戶提出挖掘服務(wù)的請求,且由用戶來設(shè)置Apriori所需的數(shù)據(jù),如最小支持度、置信度。

(2)當(dāng)Master接收到請求后,通過NameNode來進(jìn)行PML文件的申請,而后逐步完成訪問空閑節(jié)點(diǎn)列表、向空閑的DataNode分配任務(wù)、調(diào)度和并行處理各個(gè)DataNode需要的存儲(chǔ)節(jié)點(diǎn)算法。

(3)運(yùn)用Map函數(shù)來處理每個(gè)DataNode的<key,value>對映射、新鍵值對,以CnK(用1表示每一個(gè)CnK的支持度)來表示所產(chǎn)生的一個(gè)局部候選頻繁K項(xiàng)集。

(4)通過Reduce函數(shù)來實(shí)現(xiàn)調(diào)用計(jì)算,對每個(gè)DataNode節(jié)點(diǎn)上相同候選項(xiàng)集的支持度進(jìn)行累加,以產(chǎn)生一個(gè)實(shí)際的支持度,將其與最小支持度(用戶申請時(shí)所設(shè)置)進(jìn)行比較,進(jìn)而用LnK表示所生成的局部頻繁K項(xiàng)集的集合。

(5)對所有的處理結(jié)果進(jìn)行合并,從而實(shí)現(xiàn)全局頻繁K項(xiàng)集LK的生成。

3結(jié)論

綜上所述,根據(jù)物聯(lián)網(wǎng)數(shù)據(jù)的特點(diǎn),以及物聯(lián)網(wǎng)海量數(shù)據(jù)挖掘問題的存在情況。我們積極將Apriori算法應(yīng)用于物流網(wǎng)數(shù)據(jù)挖掘,這對于提高物聯(lián)網(wǎng)海量數(shù)據(jù)挖掘功能和效率有較大的作用及意義,而物流網(wǎng)數(shù)據(jù)挖掘問題也能得到有效的解決。

作者:海海洋單位:汕尾職業(yè)技術(shù)學(xué)院