淺談大數(shù)據(jù)挖掘與數(shù)據(jù)處理方法

時(shí)間:2022-11-06 05:14:12

導(dǎo)語(yǔ):淺談大數(shù)據(jù)挖掘與數(shù)據(jù)處理方法一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

淺談大數(shù)據(jù)挖掘與數(shù)據(jù)處理方法

摘要:本文闡述了大數(shù)據(jù)挖掘的來歷、方式和技術(shù)體制還有對(duì)數(shù)據(jù)的處理方法。從數(shù)據(jù)本身和使用工具方面比較了大數(shù)據(jù)與數(shù)據(jù)挖掘的異同,并且提出了關(guān)于在大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘的發(fā)展路線。現(xiàn)在科技的發(fā)展使大數(shù)據(jù)獲得了廣泛的關(guān)注、重視、和進(jìn)行開發(fā)從而加以實(shí)踐?,F(xiàn)時(shí)代數(shù)據(jù)中非結(jié)構(gòu)化流式數(shù)據(jù)作為一種主要的數(shù)據(jù)形態(tài),而他的信息龐大和復(fù)雜使得傳統(tǒng)數(shù)據(jù)處理體制無(wú)法滿足對(duì)數(shù)據(jù)處理的要求,為了滿足新時(shí)代的對(duì)大數(shù)據(jù)的處理需要將大數(shù)據(jù)處理系統(tǒng)從流程設(shè)計(jì)向數(shù)據(jù)設(shè)計(jì)方向轉(zhuǎn)化,從而提高對(duì)數(shù)據(jù)處理的效率。

關(guān)鍵詞:大數(shù)據(jù);挖掘;數(shù)據(jù)處理;方法

現(xiàn)時(shí)代大數(shù)據(jù)的涌來,使得人們迫切的想加大對(duì)數(shù)據(jù)的研究與了解。數(shù)據(jù)挖掘因此成為了我們?cè)趯?duì)數(shù)據(jù)了解的路上的一個(gè)障礙,通過對(duì)大數(shù)據(jù)挖掘的闡述,將有助于我們加深了解數(shù)據(jù)的情況。在數(shù)據(jù)的處理方法上這里也將做出一個(gè)完整的闡述。

1.基本概念

數(shù)據(jù)挖掘,意思很明顯,就是表層意思,其就是從海量的數(shù)據(jù)中提取出有效的信息,也就是相當(dāng)于在數(shù)量大、信息不完全、信息不清晰的數(shù)據(jù)中,提煉出對(duì)人類有用的的信息和知識(shí)的過程。數(shù)據(jù)挖掘主要操作是在大量數(shù)據(jù)中利用分析工具發(fā)現(xiàn)數(shù)據(jù)與模型間關(guān)系,在這個(gè)過程中它可以幫助使用者尋找數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,使模糊的因素變得明顯,所以數(shù)據(jù)挖掘被認(rèn)為是在這個(gè)信息時(shí)代解決信息貧乏的一種有效途徑。數(shù)據(jù)挖掘不僅融入了數(shù)據(jù)倉(cāng)庫(kù)、模式識(shí)別、建模技術(shù)、還包括了機(jī)器學(xué)等多領(lǐng)域的理論基礎(chǔ)和技術(shù)。其中數(shù)據(jù)庫(kù)、數(shù)理統(tǒng)計(jì)、人工智能是數(shù)據(jù)挖掘的三大技術(shù)支持。大數(shù)據(jù)是通過高速采集、發(fā)現(xiàn)和解析海量信息,是一種全新的從大容量數(shù)據(jù)中獲取價(jià)值的技術(shù)結(jié)構(gòu)。有一個(gè)權(quán)威的機(jī)構(gòu)給過大數(shù)據(jù)以一定的定義,分別是四個(gè)"V"字開頭的字母:Volume(體量大),Velocity(速度快),Variety(種類雜),Value(價(jià)值大)。Volume是指數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價(jià)值和潛在的信息;Velocity意思是對(duì)數(shù)據(jù)獲取的速度;Variety則意味著要在數(shù)量大、信息復(fù)雜的數(shù)據(jù)間發(fā)現(xiàn)其內(nèi)在關(guān)聯(lián);Value最重要,它是大數(shù)據(jù)的最終意義:挖掘數(shù)據(jù)中存在的價(jià)值。

2.相互聯(lián)系

當(dāng)前的大數(shù)據(jù)才剛開始發(fā)展,一切都是以數(shù)據(jù)挖掘?yàn)榛A(chǔ),相當(dāng)于其是對(duì)數(shù)據(jù)挖掘的概念再深化,所以可以說數(shù)據(jù)挖掘是大數(shù)據(jù)的開山鼻祖。大數(shù)據(jù)和數(shù)據(jù)挖掘都是朝著對(duì)數(shù)據(jù)進(jìn)行挖掘解析,提取有實(shí)用價(jià)值的信息為目的。雖然從表面上看,兩者區(qū)別在于大上,但深入就會(huì)發(fā)現(xiàn):數(shù)據(jù)挖掘的對(duì)象并不只是用于少量數(shù)據(jù),在對(duì)海量數(shù)據(jù)的處理上也同樣適用,只是由于挖掘方法和技術(shù)的革新,給與了一種新的說法稱作大數(shù)據(jù);另一方面:大數(shù)據(jù)的重點(diǎn)并不是在“大”,而是用全新的思想和一線技術(shù)去對(duì)海量數(shù)據(jù)進(jìn)行分析,提取其中有用的信息,進(jìn)行對(duì)未來的預(yù)估,或者根據(jù)其中的模式,創(chuàng)造新的產(chǎn)品和服務(wù)。所以大數(shù)據(jù)和數(shù)據(jù)挖掘在一定時(shí)間內(nèi)還會(huì)共存,其大致的區(qū)別就是如何體現(xiàn)出數(shù)據(jù)的價(jià)值。大數(shù)據(jù)是數(shù)據(jù)挖掘產(chǎn)業(yè)化的表現(xiàn)。信息是數(shù)據(jù)的價(jià)值,利益是技術(shù)的價(jià)值,數(shù)據(jù)挖掘是在專業(yè)技術(shù)領(lǐng)域中的一種專業(yè)名詞,在到了高端的商業(yè)領(lǐng)域就需要加以修飾升級(jí)。當(dāng)前大數(shù)據(jù)正成為增強(qiáng)國(guó)家競(jìng)爭(zhēng)力的重要因素之一,被視為創(chuàng)新和生產(chǎn)力提升的下一個(gè)前沿,在世界范圍內(nèi)受到各國(guó)越來越大的重視,多國(guó)政府在對(duì)大數(shù)據(jù)的發(fā)展上給與了大力的扶持,甚至到了國(guó)家戰(zhàn)略的層面。

3.非結(jié)構(gòu)化數(shù)據(jù)處理流程

非結(jié)構(gòu)化處理流程主要包括信息采集、網(wǎng)頁(yè)分類和網(wǎng)頁(yè)預(yù)處理三個(gè)階段。

3.1信息采集

信息采集是將雜亂無(wú)章的信息從海量的網(wǎng)頁(yè)中提取出來保存到具有一定順序的數(shù)據(jù)庫(kù)中的過程。其主要面對(duì)是專業(yè)技術(shù)人群,因此其采集的信息在一定的范圍內(nèi),并且出于對(duì)性能和成本上的考慮不能對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行全方面閱覽,所以在信息采集的方面上要做到對(duì)信息的價(jià)值進(jìn)行判斷是否值得訪問,研究以何種策略進(jìn)行對(duì)web的訪問,盡可能的提升對(duì)信息采集的效率。通過預(yù)先設(shè)定的種子鏈接集,利用HTrP協(xié)議訪問并下載頁(yè)面,再用各種技術(shù)對(duì)頁(yè)面與主題之間的聯(lián)系進(jìn)行分析并且提取出待訪問的鏈接,使用種類不同的爬行策略循環(huán)的訪問網(wǎng)頁(yè)是信息采集的基本方法。介于內(nèi)容的主題信息采集和基于超鏈接的主題信息采集是信息采集基于主題的不同的兩種分類,基于內(nèi)容的信息采集需要建立一個(gè)針對(duì)主題的詞表;另一類則是基于網(wǎng)頁(yè)之間的引用關(guān)系。

3.2網(wǎng)頁(yè)預(yù)處理

網(wǎng)頁(yè)預(yù)處理主要是一個(gè)對(duì)一些數(shù)據(jù)進(jìn)行篩選的過程,保證信息的準(zhǔn)確性。網(wǎng)頁(yè)預(yù)處理部分這里主要是對(duì)網(wǎng)頁(yè)去重的介紹,基于URL的對(duì)比去重,適用哈希算法;用信息指紋的文本相似度算法去進(jìn)行內(nèi)容的對(duì)比去重,這兩種方法是對(duì)網(wǎng)頁(yè)去重的歸類。網(wǎng)頁(yè)去重需要先對(duì)文檔對(duì)象的特征抽取,對(duì)文檔內(nèi)容進(jìn)行分解,以若干組成文檔的特征集合表示,這一步驟主要是為了使特征比較計(jì)算相似度變得方便。之后需要針對(duì)特征的壓縮編碼,進(jìn)行專業(yè)處理,做到減少存儲(chǔ)空間,加快比較速度的作用。最后需要對(duì)文檔的相似度進(jìn)行計(jì)算個(gè),這一步需要根據(jù)文檔特征重合比例來確定是否重復(fù)文檔。一般是對(duì)網(wǎng)頁(yè)進(jìn)行提取特征,大多是一組詞,適用特定的算法,轉(zhuǎn)化成一組代碼,也被稱為指紋。若兩個(gè)頁(yè)面相同指紋的數(shù)量大,則這兩個(gè)頁(yè)面內(nèi)容有很大部分是相同的。

3.3網(wǎng)頁(yè)分類

網(wǎng)頁(yè)分類是通過對(duì)數(shù)據(jù)挖掘算法得出來的分類模型,對(duì)數(shù)據(jù)進(jìn)行分類提煉,得出有價(jià)值的信息。人類所面臨的普遍問題是分類問題,并且分類問題對(duì)人們來說也是極其重要的。對(duì)物品進(jìn)行分類,可以促進(jìn)人們對(duì)世界的認(rèn)知,讓這個(gè)世界從雜亂無(wú)章變得有條有理。文本分類主要應(yīng)用在信息檢索、機(jī)器翻譯、信息審核、消息分類等任務(wù)。特征詞的選擇問題及其權(quán)重分配是文本分類的一個(gè)關(guān)鍵問題。

結(jié)語(yǔ)

當(dāng)前在大數(shù)據(jù)時(shí)代中,數(shù)據(jù)利用云存儲(chǔ)已經(jīng)成為一種趨勢(shì)。數(shù)據(jù)挖掘是整個(gè)數(shù)據(jù)應(yīng)用過程中最重要的一環(huán)。大數(shù)據(jù)的分析處理是通過把海量數(shù)據(jù)按照一定的分類方式分成不同的幾個(gè)版塊,同時(shí)利用數(shù)據(jù)技術(shù)進(jìn)行挖掘,也可以將數(shù)據(jù)挖掘技術(shù)加以整合,從而研制出更加高效準(zhǔn)確的方法對(duì)大數(shù)據(jù)進(jìn)行直接挖掘,將其中的規(guī)律和商機(jī)進(jìn)行提取,利用在人們的生活中,為人們更好地服務(wù),因此大數(shù)據(jù)挖掘在現(xiàn)在社會(huì)中具有極其重要的地位。如今社會(huì)的各個(gè)行業(yè)對(duì)數(shù)據(jù)挖掘和自然語(yǔ)言處理運(yùn)用的需求極大,在這方面上蘊(yùn)含的理論價(jià)值和商業(yè)價(jià)值極大,所以正確的使用方法對(duì)數(shù)據(jù)處理是極其重要的。

參考文獻(xiàn):

[1]高強(qiáng),張鳳荔,王瑞錦,周帆.軌跡大數(shù)據(jù):數(shù)據(jù)處理關(guān)鍵技術(shù)研究綜述[J].軟件學(xué)報(bào),2017,28(04):959-992.

[2]于躍.基于大數(shù)據(jù)挖掘的藥品不良反應(yīng)知識(shí)整合與利用研究[D].吉林大學(xué),2016.

[3]張東霞,苗新,劉麗平,張焰,劉科研.智能電網(wǎng)大數(shù)據(jù)技術(shù)發(fā)展研究[J].中國(guó)電機(jī)工程學(xué)報(bào),2015,35(01):2-12.

[4]李德仁,張良培,夏桂松.遙感大數(shù)據(jù)自動(dòng)分析與數(shù)據(jù)挖掘[J].測(cè)繪學(xué)報(bào),2014,43(12):1211-1216.

作者:黃慶 單位:廣西質(zhì)量技術(shù)工程學(xué)校