數(shù)據(jù)挖掘技術(shù)在WEB的運(yùn)用
時(shí)間:2022-08-10 10:35:36
導(dǎo)語(yǔ):數(shù)據(jù)挖掘技術(shù)在WEB的運(yùn)用一文來(lái)源于網(wǎng)友上傳,不代表本站觀(guān)點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。
一、數(shù)據(jù)挖掘的背景
互聯(lián)網(wǎng)、計(jì)算機(jī)信息技術(shù)迅猛的發(fā)展勢(shì)頭,數(shù)據(jù)從結(jié)構(gòu)化存儲(chǔ)以及轉(zhuǎn)化為非結(jié)構(gòu)化的存儲(chǔ),數(shù)據(jù)存儲(chǔ)形式的轉(zhuǎn)變,不同數(shù)據(jù)類(lèi)型的存儲(chǔ)變多,音頻、視頻等大格式的信息存儲(chǔ)在多個(gè)應(yīng)用中實(shí)現(xiàn)。行業(yè)中的計(jì)算機(jī)化、信息化和網(wǎng)絡(luò)化,使計(jì)算機(jī)和服務(wù)器上積累了各種各樣海量的數(shù)據(jù)。傳統(tǒng)的人工分析已經(jīng)不能滿(mǎn)足和適應(yīng)如此大量的數(shù)據(jù),各行各業(yè)都產(chǎn)生了巨大數(shù)據(jù)信息,包括生產(chǎn)加工、研究、物流運(yùn)輸、客戶(hù)、營(yíng)銷(xiāo)、售后等數(shù)據(jù),人們卻不知道怎么利用這些數(shù)據(jù)實(shí)現(xiàn)價(jià)值的增長(zhǎng)。如果能將這些數(shù)據(jù)進(jìn)行挖掘分析,很可能會(huì)產(chǎn)生巨大的商業(yè)價(jià)值,很多有價(jià)值的信息可以被發(fā)現(xiàn)?,F(xiàn)在,越來(lái)越多的公司和企業(yè)意識(shí)到數(shù)據(jù)挖掘的重要性,但是怎么能從如此海量的數(shù)據(jù)中挖掘出有價(jià)值有用的信息,已經(jīng)成為研究的熱門(mén)話(huà)題。在傳統(tǒng)的數(shù)據(jù)分析基礎(chǔ)上,相關(guān)人員結(jié)合新開(kāi)發(fā)人工智能和數(shù)據(jù)挖掘等相關(guān)的技術(shù),數(shù)據(jù)庫(kù)孕育而生,讓我們能從海量的數(shù)據(jù)中挖掘出有價(jià)值的信息,促使信息化的發(fā)展,稱(chēng)之為數(shù)據(jù)挖掘。
二、數(shù)據(jù)挖掘的過(guò)程
1.數(shù)據(jù)收集。將要進(jìn)行數(shù)據(jù)分析的海量數(shù)據(jù)資源收集到數(shù)據(jù)倉(cāng)庫(kù)中。把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,抽象出分析相關(guān)的數(shù)據(jù),進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)的分類(lèi),篩選出不相關(guān)或者無(wú)價(jià)值的數(shù)據(jù),減少數(shù)據(jù)集的容量。2.數(shù)據(jù)清洗和轉(zhuǎn)換。數(shù)據(jù)清洗是為了刪除掉無(wú)用的數(shù)據(jù)信息。數(shù)據(jù)轉(zhuǎn)換的目的最直接的是把所有信息統(tǒng)一化。將完整,有效的信息存入數(shù)據(jù)倉(cāng)庫(kù)。3.模型建立。模型建立是數(shù)據(jù)挖掘的核心階段。首先,要和相關(guān)領(lǐng)域的專(zhuān)家組成團(tuán)隊(duì),進(jìn)行需求分析,明確數(shù)據(jù)挖掘的目的和具體的數(shù)據(jù)挖掘任務(wù)。根據(jù)不同的任務(wù),選擇相關(guān)算法,利用這些算法來(lái)建立模型,再用專(zhuān)業(yè)的模型評(píng)估工具比較模型的準(zhǔn)確度。即使是同一種算法,參數(shù)選取的不同,所建模型的準(zhǔn)確度也不一樣。4.模型評(píng)估。從商業(yè)角度來(lái)講,模型評(píng)估是對(duì)我們所建立的預(yù)測(cè)模型的正確性進(jìn)行價(jià)值評(píng)估,如若模型中模式無(wú)價(jià)值,就要重復(fù)數(shù)據(jù)挖掘過(guò)程中的2~4步,即數(shù)據(jù)清洗和轉(zhuǎn)換、模型建立。5.知識(shí)表示。將數(shù)據(jù)挖掘最后的結(jié)果以最直觀(guān)的方式呈現(xiàn)給用戶(hù),通常用數(shù)據(jù)圖形展示工具來(lái)表示。6.應(yīng)用集成。將數(shù)據(jù)挖掘集成到現(xiàn)實(shí)的實(shí)際應(yīng)用中。例如,CRM中有了數(shù)據(jù)挖掘功能,就可以對(duì)客戶(hù)進(jìn)行等級(jí)分類(lèi)。7.模型管理。根據(jù)不同數(shù)據(jù)模型的生命周期做好數(shù)據(jù)應(yīng)用和管理。
三、web數(shù)據(jù)挖掘
基于WEB內(nèi)容的挖掘就是針對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行數(shù)據(jù)挖掘,通過(guò)用戶(hù)對(duì)網(wǎng)頁(yè)訪(fǎng)問(wèn)的交互,留下的數(shù)據(jù)信息進(jìn)行收集分類(lèi),完成數(shù)據(jù)挖掘。目前對(duì)文本內(nèi)容的挖掘技術(shù)取得了一定的成果,對(duì)圖像、音頻、視頻等各種多媒體數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)都開(kāi)始采用非結(jié)構(gòu)化大數(shù)據(jù)應(yīng)用技術(shù)來(lái)完成。基于WEB結(jié)構(gòu)的挖掘是發(fā)現(xiàn)頁(yè)面、文檔和WEB的結(jié)構(gòu),主要是發(fā)現(xiàn)WEB潛在的結(jié)構(gòu)模式,利用分析這些結(jié)構(gòu)我們可以得到很多潛在有價(jià)值的信息?;赪EB使用的數(shù)據(jù)挖掘,即針對(duì)用戶(hù)的訪(fǎng)問(wèn)網(wǎng)頁(yè)的軌跡收集分析。WEB內(nèi)容的挖掘和結(jié)構(gòu)的挖掘面對(duì)的主要挖掘?qū)ο笫谴笠?guī)模的軌跡數(shù)據(jù),對(duì)挖掘數(shù)據(jù)進(jìn)行分析可以讓管理者了解用戶(hù)的不同需求,從而為用戶(hù)提供個(gè)性化的服務(wù)。
四、數(shù)據(jù)挖掘在WEB中個(gè)性化定制的應(yīng)用
通過(guò)網(wǎng)站與用戶(hù)的交互,可以得到用戶(hù)訪(fǎng)問(wèn)的內(nèi)容、時(shí)間、方式、頻率等,從中發(fā)現(xiàn)潛在的商業(yè)價(jià)值,通過(guò)價(jià)值數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘以及算法分析得出商業(yè)結(jié)論。就可以根據(jù)挖掘到的信息對(duì)這些客戶(hù)進(jìn)行特定的推銷(xiāo)策略,進(jìn)行個(gè)性化定制。在商業(yè)領(lǐng)域中,通過(guò)對(duì)相似軌跡數(shù)據(jù)的客戶(hù)進(jìn)行分類(lèi),分析他們的共性,幫助管理者發(fā)現(xiàn)不同客戶(hù)的需求和興趣,提供適宜各類(lèi)人的服務(wù)。按照不同用戶(hù)的不同興趣和愛(ài)好,向用戶(hù)提供動(dòng)態(tài)的瀏覽建議。對(duì)大多數(shù)用戶(hù)來(lái)說(shuō),如果可以訪(fǎng)問(wèn)該網(wǎng)站可以體會(huì)到量身定做的服務(wù),那么數(shù)據(jù)挖掘個(gè)性化定制就成功完成了。
五、數(shù)據(jù)挖掘技術(shù)在WEB中的應(yīng)用
網(wǎng)站的功能設(shè)計(jì)及其版面的內(nèi)容直接影響到網(wǎng)站的訪(fǎng)問(wèn)率。相關(guān)人員發(fā)現(xiàn)用戶(hù)的需要和興趣,對(duì)需求強(qiáng)烈的地方提供優(yōu)化,使用數(shù)據(jù)挖掘去發(fā)現(xiàn)頁(yè)面間的關(guān)聯(lián),針對(duì)不同的用戶(hù)動(dòng)態(tài)調(diào)整網(wǎng)站的設(shè)計(jì)和鏈接,使用戶(hù)可以便捷地訪(fǎng)問(wèn)到自己想要訪(fǎng)問(wèn)的頁(yè)面。將數(shù)據(jù)挖掘技術(shù)的在WEB中的應(yīng)用,吸引更多的用戶(hù)。隨著數(shù)據(jù)挖掘技術(shù)在WEB中的應(yīng)用,用戶(hù)可以通過(guò)分析挖掘的結(jié)果了解各種客戶(hù)的需求和喜好,得到各種定制個(gè)性化服務(wù)。隨著互聯(lián)網(wǎng)上軌跡數(shù)據(jù)信息量的急速增長(zhǎng),不斷復(fù)雜化的數(shù)據(jù)結(jié)構(gòu),挖掘技術(shù)也面臨著一系列新的問(wèn)題和挑戰(zhàn)。
作者:張欣 單位:重慶郵電大學(xué)移通學(xué)院
參考文獻(xiàn):
[1]胡繼平.數(shù)據(jù)挖掘技術(shù)[J].景德鎮(zhèn)高專(zhuān)學(xué)報(bào),1998
[2]NguyenT,SrinivasanV.AccessingrelationaldatabasesfromtheWorldWideWEB.In:ProcofIEEEDataEngineering[J].NewOrleansLouisiana,2006
熱門(mén)標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)管理論文 數(shù)據(jù)安全論文 數(shù)據(jù)庫(kù)論文 數(shù)據(jù)誤差 數(shù)據(jù)統(tǒng)計(jì) 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)采集 數(shù)據(jù)分析 心理培訓(xùn) 人文科學(xué)概論