Web數(shù)據(jù)挖掘在信息管理的運用

時間:2022-07-10 04:09:27

導(dǎo)語:Web數(shù)據(jù)挖掘在信息管理的運用一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

Web數(shù)據(jù)挖掘在信息管理的運用

1信息管理的現(xiàn)狀和發(fā)展趨勢

信息管理是國家經(jīng)濟建設(shè)、人才培養(yǎng)以及學(xué)科發(fā)展的必要途徑,科研創(chuàng)新、高校圖書館、企業(yè)管理、電子商務(wù)等多領(lǐng)域離不開信息管理。如何從廣大的數(shù)據(jù)信息中,快速檢索出需要的信息,需要web數(shù)據(jù)挖掘技術(shù)。為做到高效率高精度的提供教學(xué)、科研、企業(yè)等的個性化需要,快速檢索海量信息資料,其算法及在信息管理中的應(yīng)用是一個值得研究的課題。Web數(shù)據(jù)挖掘技術(shù)是信息管理這一課題的前沿技術(shù),綜合多種信息手段,大大提升了信息資源的組織管理的優(yōu)勢,強化科技信息服務(wù)質(zhì)量,拓展了更廣泛的服務(wù)方式和應(yīng)用方式。信息管理不僅僅是信息的載體管理,同時針對信息內(nèi)容的外在特征深化管理也是信息管理的重要組成部分。對原信息內(nèi)容加以深入分析,整體提供海量數(shù)據(jù)的內(nèi)在聯(lián)系和規(guī)則,消化、辨識消息,保證消息安全,有效運用數(shù)據(jù)挖掘技術(shù)等尖端計算機技術(shù),提高整體信息管理水平是信息管理的要求。

2數(shù)據(jù)挖掘技術(shù)的基本概念和特質(zhì)

數(shù)據(jù)挖掘技術(shù)是綜合統(tǒng)計學(xué)、計算機技術(shù)數(shù)據(jù)庫等研究內(nèi)容,吸收人工知識和機器學(xué)習(xí)的專業(yè)知識,進行知識獲取和數(shù)據(jù)挖掘的一門學(xué)科,能夠快速準(zhǔn)確、方便快捷的獲取有價值的信息。目前數(shù)據(jù)挖掘技術(shù)仍是信息管理研究的熱點,代表性的數(shù)據(jù)挖掘系統(tǒng)有Enterpriseminer,IntelligentMiner等。通過模型化、歸納、聚類、偏差等技術(shù)重點進行數(shù)據(jù)挖掘,其技術(shù)難點是要實時的綜合數(shù)據(jù)庫進行智能化的數(shù)據(jù)挖掘。近年來隨著數(shù)據(jù)庫技術(shù)的發(fā)展,基于異構(gòu)數(shù)據(jù)源等多種技術(shù)不斷發(fā)展,移動計算的數(shù)據(jù)挖掘技術(shù)的研究也日益深入。值得一提的是,關(guān)聯(lián)規(guī)則代表算法是Apriori,該算法通過識別頻繁項目集,發(fā)現(xiàn)數(shù)據(jù)庫中各項目的關(guān)聯(lián)關(guān)系,即發(fā)現(xiàn)可信度強的規(guī)則。在這一算法的基礎(chǔ)上,為了不斷提高技術(shù)效率,采用增量更新技術(shù),進行并行化挖掘數(shù)據(jù)。在上述算法的基礎(chǔ)上,強調(diào)形象規(guī)則,即有關(guān)客戶興趣度等外在信息,快速學(xué)習(xí)相似性行為模式索引技術(shù),通過在線多維索引,強調(diào)結(jié)構(gòu)化有向的構(gòu)建等是數(shù)據(jù)挖掘技術(shù)的研究熱點。隨著復(fù)雜數(shù)據(jù)不斷海量化,研究將優(yōu)化智能算法結(jié)合目前數(shù)據(jù)挖掘技術(shù),從而大幅度提高數(shù)據(jù)處理效率和質(zhì)量。信息管理數(shù)據(jù)復(fù)雜海量,有著多種信息類型,用戶檢索的自由度很高,用戶個性化需求多樣,Web數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。具體技術(shù)包括文件內(nèi)容描述、人為鏈接結(jié)構(gòu)和存取模式用法的挖掘。Web數(shù)據(jù)挖掘技術(shù)是利用進化算法、粗集等信息處理方法,使用檢索工具檢索形成信息文本集、選取合適的典型特征,分析、修剪、歸納異質(zhì)信息,精簡子集。檢索功能的逼近能力反映了該技術(shù)的檢索質(zhì)量。基于內(nèi)容的文本挖掘方法如Webwatcher,Musag,Letizia等。通過關(guān)鍵字定位,或是使用近義詞典擴充關(guān)鍵字,或者基于瀏覽行為而無需關(guān)鍵字,形成客戶形象信息、興趣模型,對客戶提供評價和鏈接以及相似信息獲取,更新搜索方式,并反饋客戶申請。目前技術(shù)運用效果佳,實現(xiàn)更柔性精確的信息管理是該技術(shù)前進的方向。利用基于問題的技術(shù)代表有Antagonomy,In-ternetFish等,是一定約束的自然語言的界面通過存取分布交互系統(tǒng),學(xué)習(xí)器學(xué)習(xí)客戶喜好情況,以及少許特征向量,對信息快速分類,在數(shù)據(jù)庫基礎(chǔ)上,使用自組織映射等技術(shù),集成人工智能,最終成為個性化搜索助理的信息管理技術(shù)。上述技術(shù)一般適用于特定用戶,協(xié)同即公眾學(xué)習(xí)方法是分析一組客戶中客戶間相似程度關(guān)聯(lián)規(guī)則,而非分析信息內(nèi)容。優(yōu)點在于可以平等處理各種內(nèi)容信息,但少數(shù)用戶的評價級不足,會影響信息管理系統(tǒng)性能。強調(diào)客戶間的信息交流,傳送響應(yīng)信息,依據(jù)信息選擇學(xué)習(xí)算子,大大的提高了信息管理效率和質(zhì)量。在強調(diào)機器學(xué)習(xí)和統(tǒng)計方法的基礎(chǔ)上,體現(xiàn)了分布協(xié)同處理的信息管理新思路,有著柔性智能的特點,在信息管理中應(yīng)用前景廣大。

3數(shù)據(jù)挖掘在信息管理中的具體應(yīng)用

以科技信息平臺中的數(shù)據(jù)挖掘為例。數(shù)據(jù)可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)以及非結(jié)構(gòu)化數(shù)據(jù),如表一所示。表一數(shù)據(jù)分類如今非結(jié)構(gòu)化、個性化、隨機數(shù)據(jù)、海量數(shù)據(jù)的檢索需求日漸提高,促進了科技信息檢索平臺及相圖一科技文獻信息平臺應(yīng)軟件的研發(fā),這一課題是當(dāng)前熱點。Web數(shù)據(jù)挖掘技術(shù)共享信息獲取檢索管理的模式改革,強調(diào)了科技信息平臺系統(tǒng)智能化,通過分析功能的添加,增強用戶管理,提供個性化的解決方案,利用數(shù)據(jù)存儲客戶喜好,對客戶數(shù)據(jù)庫進行分析,研究知識挖掘的領(lǐng)域,提供多目標(biāo)的信息管理:改進系統(tǒng)性能、設(shè)計、理解用戶需求等等。通過統(tǒng)計學(xué)方法分析檢索量、頻率、次數(shù)、空間時間分布,路徑模式發(fā)現(xiàn)算法,在移動通信的支持上,進行進一步的科技文獻信息平臺的搭建是主要發(fā)展趨勢。具體平臺如圖一所示,一方面客戶端綜合用戶間聯(lián)系、用戶歷史紀(jì)錄、分析用戶圖形,交由數(shù)據(jù)中心處理。另一方面,各分節(jié)點在總節(jié)點的指揮下,反饋信息。具體過程有:數(shù)據(jù)挖掘、任務(wù)結(jié)構(gòu)化解析、挖掘算法、智能模型、調(diào)度計算資源、綁定挖掘任務(wù),最終將數(shù)據(jù)挖掘結(jié)果進行可視化展示。分析Web的頁面內(nèi)容、結(jié)構(gòu)和用戶信息,最終提供高效信息管理服務(wù),是現(xiàn)有數(shù)據(jù)處理技術(shù)的有效補充。如圖二所示。在科技信息管理領(lǐng)域,拓寬Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用個,如Web數(shù)據(jù)挖掘技術(shù)和高校圖書館綜合,可以優(yōu)化資源建設(shè)。在有限的經(jīng)費下,充分發(fā)揮載體優(yōu)勢,拓展文獻存儲,一方面優(yōu)化電子信息檢索存儲,另一方面還可以提高高校圖書館的應(yīng)用效率。統(tǒng)計文獻引用率、瀏覽率、下載率等等,分析文獻自身特點如時間空間分布、引用下載曲線、文獻間關(guān)聯(lián)比例、用戶借閱喜好,最終優(yōu)化信息管理布局。收集整理用戶興趣模式。采用合適的挖掘算法查缺補漏,調(diào)整方向,優(yōu)化資源分配。還可以評判科技信息資源的利用率,立足人本需求,拓展智能化信息服務(wù)。搜集用戶閱讀瀏覽集合,對集合進行關(guān)聯(lián)規(guī)則挖掘,匹配瀏覽模式,形成相似用戶組,對訪問頻率高于閾值的,預(yù)先連接,提高速度效率。利用WEB數(shù)據(jù)挖掘技術(shù),分析用戶訪問數(shù)據(jù),預(yù)測傳輸用戶界面。最終做到智能化信息服務(wù)。支持多樣檢索方式,聚類結(jié)果分析,結(jié)構(gòu)化條理化呈現(xiàn)信息,用戶個性篩選,進行科學(xué)假設(shè),最終做到智能化、交互式檢索。提高傳統(tǒng)被動服務(wù)模式的反應(yīng)速度,適應(yīng)飛速發(fā)展的知識信息,主動提供用戶信息。如:用戶喜好相關(guān)數(shù)據(jù)及時推送,訪問時優(yōu)先推薦專題,跟蹤客戶形象變化,提供動態(tài)分析,如個人主頁等服務(wù)或是相關(guān)定制服務(wù)就可以較好的完成這一功能。真正將數(shù)據(jù)挖掘具體到客戶需求,提高信息管理的主動性和高效率。同時,還可以分析商業(yè)客戶,反饋一手數(shù)據(jù)給相關(guān)部門,切實制定發(fā)展戰(zhàn)略,提高信息管理收益成本比,促進多方合作共贏。Web數(shù)據(jù)挖掘技術(shù)減少人力和物力成本,加速信息映射,是提供信息管理服務(wù)的強有力保障。Web挖掘技術(shù)可以豐富頁面內(nèi)容,以及相關(guān)頁面,如該專業(yè)的規(guī)范權(quán)威頁面,是信息資源的有效補充。

4結(jié)束語

在統(tǒng)計學(xué)的基礎(chǔ)上,綜合人工智能、機器學(xué)習(xí)、可視化、并行計算等多門領(lǐng)域,融合多種技術(shù)提高數(shù)據(jù)挖掘的效率和質(zhì)量,深入研究Web數(shù)據(jù)挖掘在信息管理中的應(yīng)用,如和圖書館的結(jié)合等,最終應(yīng)用于實踐產(chǎn)出創(chuàng)新性產(chǎn)品。為科技文獻管理等多領(lǐng)域提供全局觀,在傳統(tǒng)查詢報表的基礎(chǔ)上,借數(shù)據(jù)倉庫技術(shù)的東風(fēng),數(shù)據(jù)挖掘技術(shù)勢在必行。數(shù)據(jù)挖掘是要對數(shù)據(jù)進行抽取,進而分析數(shù)據(jù),轉(zhuǎn)換模型化處理數(shù)據(jù),最終提取輔助決策的關(guān)鍵性數(shù)據(jù)。不僅得到傳統(tǒng)的事件結(jié)果,更對事件的本質(zhì)和信息間關(guān)系進行挖掘,通過置信度預(yù)測評價,最終支持決策行為。Web數(shù)據(jù)挖掘算法和應(yīng)用研究基礎(chǔ)。Web數(shù)據(jù)挖掘具體研究Web頁面內(nèi)容結(jié)構(gòu),以用戶信息為基礎(chǔ),研究用戶和頁面互動的內(nèi)在聯(lián)系,分析包括用戶界面、商務(wù)等多領(lǐng)域Web數(shù)據(jù),應(yīng)用上述挖掘技術(shù),優(yōu)化客戶檢索體驗,改進信息平臺設(shè)計,在電子商務(wù)等多領(lǐng)域應(yīng)用于改進信息管理服務(wù),體現(xiàn)了數(shù)據(jù)挖掘技術(shù)的優(yōu)越性。在信息管理領(lǐng)域,綜合智能和數(shù)據(jù)挖掘技術(shù),分析用戶特征、文獻知識是知識信息管理的重要組成,顯示出強大的生命力。

作者:葉蓉 單位:江西省科技情報研究所

參考文獻

[1]陳卓民.基于HITS算法改進的Web數(shù)據(jù)挖掘方法研究應(yīng)用[J].自動化與儀器儀表,2016,(07):255-257.

[2]吳雷.網(wǎng)絡(luò)信息安全防范和Web數(shù)據(jù)挖掘技術(shù)的有效整合[J].網(wǎng)絡(luò)空間安全,2016,(06):62-64.

[3]鄭亦梁.Web數(shù)據(jù)挖掘和個性化搜索引擎研究[J].通訊世界,2016,(05):240.

[4]李娟.淺析Web數(shù)據(jù)挖掘[J].福建電腦,2011,(11):72-73.

[5]張倩.應(yīng)用Web數(shù)據(jù)挖掘技術(shù)捕獲網(wǎng)絡(luò)檔案信息資源個性化服務(wù)研究[J].檔案與建設(shè),2008,(07):15-17.

[6]白慧.基于Web數(shù)據(jù)挖掘的數(shù)字圖書館個性化信息服務(wù)[J].圖書情報導(dǎo)刊,2008,(15):38-39.

[7]李平.網(wǎng)絡(luò)安全防范與Web數(shù)據(jù)挖掘技術(shù)的整合研究[J].信息安全與技術(shù),2016,(08):63-65.