挖掘技術(shù)論文范文

時(shí)間:2023-04-11 07:33:46

導(dǎo)語(yǔ):如何才能寫好一篇挖掘技術(shù)論文,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

挖掘技術(shù)論文

篇1

[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無(wú)法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無(wú)法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類分析算法得到的類對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類趨勢(shì)進(jìn)行檢驗(yàn)。

4.決策樹方法。決策樹學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹枝向下移動(dòng)。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類,無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過(guò)學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對(duì)未知事物的探索等方面。

事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語(yǔ)

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

篇2

關(guān)鍵詞:數(shù)據(jù)挖掘電子商務(wù)應(yīng)用

當(dāng)今,國(guó)內(nèi)外電子商務(wù)類網(wǎng)站日益興起。許多電子商務(wù)類網(wǎng)站都提供了一定程度的個(gè)性化服務(wù),比如提供商品推薦服務(wù)。而構(gòu)成這些個(gè)性化服務(wù)的基礎(chǔ)就是數(shù)據(jù)挖掘技術(shù)。

一、數(shù)據(jù)挖掘分析

1.數(shù)據(jù)挖掘的定義。數(shù)據(jù)挖掘(datamining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識(shí)的過(guò)程。包括存儲(chǔ)和處理數(shù)據(jù),選擇處理大數(shù)據(jù)集的算法、解釋結(jié)果、使結(jié)果可視化。

2.數(shù)據(jù)挖掘的方法。從商業(yè)的角度來(lái)看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘的方法大致可以分成4類:關(guān)聯(lián)分析、概括分析、分類分析、聚類分析。(1)關(guān)聯(lián)分析:分析表面上不相關(guān)數(shù)據(jù)之間的內(nèi)在聯(lián)系,揭示各事之間的依賴性和相關(guān)性,分析范圍包括簡(jiǎn)單關(guān)聯(lián)、因果關(guān)聯(lián)等。在電子商務(wù)中,用數(shù)據(jù)挖掘找到隱藏的關(guān)聯(lián)規(guī)則,當(dāng)客戶瀏覽、搜索關(guān)聯(lián)規(guī)則中的某種商品時(shí),就可以在頁(yè)面中以推薦商品的形式顯示關(guān)聯(lián)規(guī)則中的其它商品。在進(jìn)貨計(jì)劃和促銷計(jì)劃中,也可以將這個(gè)因素考慮進(jìn)去。(2)概括分析:即提取數(shù)據(jù)庫(kù)中指定的數(shù)據(jù)集合的一般特性,找出遍性規(guī)律。(3)分類分析:設(shè)置分類規(guī)則,把各個(gè)事務(wù)或?qū)嶓w按照性質(zhì)和特征不同進(jìn)行歸類,把數(shù)據(jù)層次化和規(guī)整化,從而建立數(shù)據(jù)的分類模型。(4)聚類分析:通過(guò)分析和歸納實(shí)體之間的特征差異,選出具相識(shí)特征的實(shí)體聚合成為一個(gè)類,并用某種規(guī)則來(lái)描述該類的相同屬性,形成一種聚類規(guī)則,實(shí)際上,它是與分類分析法互逆的過(guò)程。

3.數(shù)據(jù)挖掘的過(guò)程。該過(guò)程從大型數(shù)據(jù)庫(kù)中挖掘先前未知的、有效的、可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí)。(1)確定業(yè)務(wù)對(duì)象:清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。(2)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)的選擇:搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。(3)數(shù)據(jù)挖掘:對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成。(4)結(jié)果分析:解釋并評(píng)估結(jié)果。其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù)。(5)知識(shí)的同化:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

二、數(shù)據(jù)挖掘與電子商務(wù)的關(guān)系

在電子商務(wù)企業(yè)中,數(shù)據(jù)挖掘運(yùn)用于客戶行為分析,企業(yè)從中受益體現(xiàn)在以下四個(gè)方面:(1)可以發(fā)現(xiàn)客戶和訪問者的愛好、生活模式。(2)可以爭(zhēng)取新顧客,怎樣使產(chǎn)品適銷對(duì)路、怎樣給產(chǎn)品定價(jià)、怎樣吸引單個(gè)客戶、怎樣優(yōu)化Web網(wǎng)站。(3)可以用相應(yīng)的信息確定顧客的消費(fèi)周期,針對(duì)不同的產(chǎn)品制定相應(yīng)的營(yíng)銷策略。(4)可以確定客戶細(xì)分,為每一個(gè)客戶的獨(dú)特需求設(shè)計(jì)“量身定制”的產(chǎn)品。三、數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用

1.面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)。本系統(tǒng)電子商務(wù)平臺(tái)采用基于三層體系結(jié)構(gòu)構(gòu)建,服務(wù)器端采用先進(jìn)的J2EE平臺(tái)構(gòu)架,有完整的體系框架組成,具有很好的可擴(kuò)展性、互聯(lián)性和可維護(hù)性。因此面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)由數(shù)據(jù)庫(kù)服務(wù)器、應(yīng)用服務(wù)器和客戶端三層組成,整個(gè)體系結(jié)構(gòu)是以J2EE企業(yè)級(jí)的構(gòu)建技術(shù)為基礎(chǔ)。對(duì)數(shù)據(jù)挖掘過(guò)程中產(chǎn)生的數(shù)據(jù),采用獨(dú)立的數(shù)據(jù)挖掘庫(kù)表存放,這樣既不影響也不依賴數(shù)據(jù)挖掘的數(shù)據(jù)源。應(yīng)用服務(wù)器完成所有的數(shù)據(jù)挖掘運(yùn)算,通過(guò)接受客戶端的設(shè)置,完成所有對(duì)數(shù)據(jù)進(jìn)行探索、轉(zhuǎn)換、挖掘的工作。數(shù)據(jù)挖掘系統(tǒng)的每個(gè)功能模塊都以EJB的形式進(jìn)行封裝,以實(shí)現(xiàn)分布式計(jì)算和負(fù)載平衡等分布式計(jì)算的要求,把具有繁重計(jì)算任務(wù)的模塊和用戶交互模塊分開。客戶端要負(fù)責(zé)數(shù)據(jù)挖掘流程的創(chuàng)建工作、所有功能模塊參數(shù)的設(shè)定以及各種可視化結(jié)果的顯示。用戶可以根據(jù)自己的要求任意創(chuàng)建各種形式的挖掘流程,同時(shí)按照需要執(zhí)行某部分流程,獲取相應(yīng)的可視化分析結(jié)果,其系統(tǒng)體系結(jié)構(gòu)如圖所示。

面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu)圖

2.面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)功能設(shè)計(jì)。面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)主要以下幾大功能模塊:(1)用戶信息分析。運(yùn)用分類和聚類挖掘方法對(duì)用戶的信息分析,可以得到用戶的些特征。對(duì)用戶分類相當(dāng)于對(duì)具有某些公共屬性的用戶群體建立了概要特征描述,這些特征可以用來(lái)對(duì)新增的用戶進(jìn)行分類,可以發(fā)現(xiàn)未來(lái)的潛在用戶并開展有針對(duì)性的商務(wù)活動(dòng),如自動(dòng)給一類特定的用戶發(fā)送銷售郵件,當(dāng)屬于同一類的用戶再次訪問站點(diǎn)時(shí)為其動(dòng)態(tài)地改變站點(diǎn)的內(nèi)容等。通過(guò)這些舉措使商務(wù)活動(dòng)能夠在一定程度上滿足用戶的要求,實(shí)現(xiàn)目標(biāo)營(yíng)銷。(2)商品信息分析。運(yùn)用關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)商品訪問中所有關(guān)聯(lián)和相聯(lián)系的規(guī)則,可以從交易事務(wù)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)商品間的相互聯(lián)系。這對(duì)電子商務(wù)公司組織站點(diǎn)網(wǎng)頁(yè)結(jié)構(gòu)、開展有效的營(yíng)銷策略非常有幫助。(3)物流信息分析。采用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)技術(shù),根據(jù)各物流配送點(diǎn)接到的網(wǎng)站用戶訂單來(lái)預(yù)測(cè)其庫(kù)存數(shù)量。預(yù)測(cè)信息可以給物流配送中心以參考,用來(lái)合理地確定各配送點(diǎn)倉(cāng)庫(kù)的庫(kù)存量,使各配送點(diǎn)的補(bǔ)貨能更加合理有序,降低物流成本,節(jié)約庫(kù)存費(fèi)用。

四、結(jié)束語(yǔ)

數(shù)據(jù)挖掘是一個(gè)新興的領(lǐng)域,具有廣闊應(yīng)用前景,目前,電子商務(wù)在我國(guó)正處于快速發(fā)展和應(yīng)用階段,利用數(shù)據(jù)挖掘技術(shù),能夠強(qiáng)化對(duì)客戶的服務(wù)、促進(jìn)市場(chǎng)最優(yōu)化、加速資金周轉(zhuǎn)、實(shí)現(xiàn)企業(yè)的創(chuàng)新發(fā)展。電子商務(wù)平臺(tái)上的數(shù)據(jù)挖掘技術(shù)有待人們?nèi)ミM(jìn)行更深入的研究工作,這將不斷的推動(dòng)數(shù)據(jù)挖掘技術(shù)的深入發(fā)展和廣泛應(yīng)用,創(chuàng)造出更多的社會(huì)和經(jīng)濟(jì)價(jià)值。

參考文獻(xiàn):

[1]張?jiān)茲忊?數(shù)據(jù)挖掘原理與技術(shù).北京,電子工業(yè)出版社,2004年1月

[2]方真等:電子商務(wù)教程[M].北京:清華大學(xué)出版社.2004

篇3

1.1云計(jì)算

云計(jì)算是并行計(jì)算和分布計(jì)算以及網(wǎng)格計(jì)算的發(fā)展,是一種在海量數(shù)據(jù)大規(guī)模的集合中能動(dòng)態(tài)處理各種服務(wù)器數(shù)據(jù)資源的一類計(jì)算平臺(tái),在電子商務(wù)、商業(yè)金融、科研開發(fā)等領(lǐng)域能得到廣泛的應(yīng)用。它具有大規(guī)模、虛擬化、高效率、通用性、廉價(jià)等特點(diǎn),能針對(duì)不同的用戶的不同需求,動(dòng)態(tài)透明地提供其所需的虛擬化計(jì)算和資源儲(chǔ)存,并能及時(shí)動(dòng)態(tài)回收當(dāng)前用戶暫不利用的數(shù)據(jù)資源以提供給其他用戶,而其廉價(jià)、通用的特點(diǎn),使得一般用戶實(shí)現(xiàn)大規(guī)模的數(shù)據(jù)操作成為可能。目前來(lái)說(shuō),云計(jì)算的平臺(tái)已得到良好的發(fā)展,日益成熟,基于云計(jì)算的應(yīng)用已經(jīng)可以相當(dāng)方便的部署和操作其數(shù)據(jù)資源。

1.2數(shù)據(jù)挖掘

數(shù)據(jù)挖掘技術(shù)是現(xiàn)代知識(shí)發(fā)現(xiàn)領(lǐng)域的一個(gè)重要技術(shù),它是指一個(gè)從隨機(jī)的大量而不完整的模糊的實(shí)際數(shù)據(jù)中提取其中某些隱含著的具有潛在價(jià)值的實(shí)用知識(shí)與信息的過(guò)程。其具體技術(shù)有特征化、聚類、關(guān)聯(lián)和預(yù)測(cè)分析等等,涉及到的高級(jí)技術(shù)領(lǐng)域有統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能等方面。

2基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)構(gòu)架

網(wǎng)絡(luò)云的發(fā)展給數(shù)據(jù)挖掘提出了新的問題和時(shí)代的挑戰(zhàn),同時(shí),也為數(shù)據(jù)挖掘提供了新的計(jì)算平臺(tái)和發(fā)展機(jī)遇?;谠朴?jì)算的數(shù)據(jù)挖掘系統(tǒng)平臺(tái)的發(fā)現(xiàn),解決了傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)出現(xiàn)的時(shí)代滯慢、效率較低、功能落后、成本高昂等問題。云計(jì)算是一種商業(yè)計(jì)算模式,是網(wǎng)格計(jì)算與并行計(jì)算及分布式計(jì)算在一定程度上的商業(yè)實(shí)現(xiàn),其動(dòng)態(tài)、可伸縮的計(jì)算基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)探討文/張瑤劉輝云計(jì)算是一種在互聯(lián)網(wǎng)時(shí)代中應(yīng)運(yùn)而生的新興的網(wǎng)絡(luò)技術(shù),具有高效率、高容量、動(dòng)態(tài)處理的特點(diǎn),在社會(huì)的商業(yè)領(lǐng)域和科研領(lǐng)域表現(xiàn)出了其相當(dāng)高的應(yīng)用價(jià)值。將云計(jì)算應(yīng)用于數(shù)據(jù)挖掘平臺(tái)的構(gòu)架之中后,將能在很大程度上為現(xiàn)代社會(huì)中越來(lái)越海量的數(shù)據(jù)挖掘提供一個(gè)高效率的技術(shù)平臺(tái)。本文將結(jié)合云計(jì)算和數(shù)據(jù)挖掘的基本概念和現(xiàn)代意義,對(duì)數(shù)據(jù)挖掘的平臺(tái)構(gòu)架和相應(yīng)的關(guān)鍵技術(shù)做出簡(jiǎn)要的分析探討。摘要能力使得進(jìn)行高效的海量數(shù)據(jù)挖掘的目標(biāo)不再遙遠(yuǎn)。同時(shí),云計(jì)算SaaS功能日益被理解和標(biāo)準(zhǔn)化,使得基于云計(jì)算SaaS化的數(shù)據(jù)挖掘有了理論和技術(shù)的指導(dǎo),并具有了企業(yè)化與大眾化的發(fā)展趨勢(shì)。

2.1數(shù)據(jù)挖掘平臺(tái)構(gòu)架

建立在關(guān)系型數(shù)據(jù)庫(kù)之上的傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)構(gòu)架在現(xiàn)時(shí)代數(shù)據(jù)急劇膨脹和分析需求漸增的發(fā)展下已經(jīng)難以應(yīng)付社會(huì)的數(shù)據(jù)處理問題。而云計(jì)算的分布式存儲(chǔ)與計(jì)算形式則接受了當(dāng)代的數(shù)據(jù)挖掘難題,促成了適應(yīng)時(shí)代的云計(jì)算數(shù)據(jù)挖掘平臺(tái)構(gòu)架的形成。其包含了面向組件的設(shè)計(jì)理念和分層設(shè)計(jì)的思想方法。其構(gòu)架自下向上總共分為3層,分別為底層的云計(jì)算支撐平臺(tái)層、中間的數(shù)據(jù)挖掘能力層和上層的數(shù)據(jù)挖掘云服務(wù)層。

2.2基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)構(gòu)架各層意義

云計(jì)算支撐平臺(tái)層:顧名思義,該平臺(tái)層是云計(jì)算數(shù)據(jù)挖掘平臺(tái)的基礎(chǔ)處理平臺(tái),其主要具有的功能是對(duì)分布式文件存儲(chǔ)與數(shù)據(jù)庫(kù)提供資源存儲(chǔ),以及實(shí)行對(duì)數(shù)據(jù)的有關(guān)處理和計(jì)算功能。數(shù)據(jù)挖掘能力層:該平臺(tái)結(jié)構(gòu)層主要是提供挖掘的基礎(chǔ)能力,是數(shù)據(jù)挖掘的核心支撐平臺(tái),并對(duì)數(shù)據(jù)挖掘云服務(wù)層提供能力支撐。該平臺(tái)層包含了算法數(shù)據(jù)并行處理、調(diào)度引起和服務(wù)管理的框架,該平臺(tái)層可以提供系統(tǒng)內(nèi)部的數(shù)據(jù)挖掘處理和推薦算法庫(kù),亦支持第三方的數(shù)據(jù)挖掘算法工具的進(jìn)入。數(shù)據(jù)挖掘云服務(wù)層:數(shù)據(jù)挖掘云服務(wù)層的主要功能是對(duì)外提供數(shù)據(jù)挖掘操作的云服務(wù),同時(shí)也能提供基于結(jié)構(gòu)化查詢的語(yǔ)言語(yǔ)句訪問,提供相關(guān)的解析引擎,以便于自動(dòng)調(diào)用云服務(wù)。對(duì)外數(shù)據(jù)挖掘云服務(wù)能力封裝的接口形式多樣,包含了基于簡(jiǎn)單對(duì)象訪問協(xié)議下的Webservice、XML、HTTP以及本地應(yīng)用程序的編程接口等多種形式。另外,在必要的時(shí)候,云服務(wù)層的各個(gè)業(yè)務(wù)系統(tǒng)可以進(jìn)行數(shù)據(jù)挖掘云服務(wù)的調(diào)用和組裝。

3基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)構(gòu)架的關(guān)鍵技術(shù)探討

基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)構(gòu)架的形成,離不開現(xiàn)代先進(jìn)的科技技術(shù),其中幾項(xiàng)關(guān)鍵的技術(shù)應(yīng)用將在這里進(jìn)行簡(jiǎn)要的闡述:

3.1云計(jì)算技術(shù)

3.1.1分布式儲(chǔ)存技術(shù)

通過(guò)采用分布式存儲(chǔ)的方式來(lái)存儲(chǔ)數(shù)據(jù),是云計(jì)算技術(shù)保證數(shù)據(jù)處理高可靠性和經(jīng)濟(jì)性的重要保證。用可靠的軟件來(lái)彌補(bǔ)硬件的不足,是分布式存儲(chǔ)技術(shù)提供廉價(jià)而又海量的數(shù)據(jù)挖掘支持的重要途徑。

3.1.2虛擬化技術(shù)

在云計(jì)算的環(huán)境下,數(shù)據(jù)挖掘能實(shí)現(xiàn)對(duì)大量的可用的虛擬化技術(shù)的應(yīng)用、整合,發(fā)展出一套全面虛擬化的運(yùn)行戰(zhàn)略。云計(jì)算和虛擬化的共同組合,使數(shù)據(jù)挖掘?qū)崿F(xiàn)了跨系統(tǒng)下的資源調(diào)度,將海量的來(lái)源數(shù)據(jù)進(jìn)行IT資源匯合,動(dòng)態(tài)地實(shí)現(xiàn)對(duì)用戶的虛擬化資源的供給,從而以高效率、海量動(dòng)態(tài)的特點(diǎn)完成服務(wù)任務(wù)。

3.1.3并行云計(jì)算技術(shù)

并行云計(jì)算技術(shù)是一種對(duì)于高效執(zhí)行數(shù)據(jù)挖掘計(jì)算任務(wù)極其重要的技術(shù),并且它對(duì)云計(jì)算的某些技術(shù)細(xì)節(jié)做出了封裝,例如任務(wù)并行、任務(wù)調(diào)度、任務(wù)容錯(cuò)和系統(tǒng)容錯(cuò)以及數(shù)據(jù)分布等。該功能代替了用戶對(duì)這些細(xì)節(jié)的考慮,使得研發(fā)效率得到了提高。

3.2數(shù)據(jù)匯集調(diào)度中心

數(shù)據(jù)匯集調(diào)度中心的功能主要是完成對(duì)不同類型的數(shù)據(jù)進(jìn)行匯集。它實(shí)現(xiàn)了對(duì)接入該云計(jì)算數(shù)據(jù)挖掘平臺(tái)的業(yè)務(wù)數(shù)據(jù)收集匯合,能夠解決與不同數(shù)據(jù)的相關(guān)規(guī)約問題,并能支持多樣的源數(shù)據(jù)格式。

3.3服務(wù)調(diào)度與管理技術(shù)

對(duì)于基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái),為了使不同業(yè)務(wù)系統(tǒng)能夠使用本計(jì)算平臺(tái),必須要提供相應(yīng)的服務(wù)調(diào)度與管理功能。服務(wù)調(diào)度解決云服務(wù)下的并行互斥以及隔離等問題,以保證安全、可靠的平臺(tái)的云服務(wù)。服務(wù)管理功能要實(shí)現(xiàn)統(tǒng)一的服務(wù)注冊(cè)與服務(wù)暴露功能,并且支持接入第三方的數(shù)據(jù)挖掘,以更好地?cái)U(kuò)展平臺(tái)的服務(wù)能力。

4結(jié)束語(yǔ)

篇4

檔案管理對(duì)象的數(shù)量隨著社會(huì)的發(fā)展而不斷增加,僅僅通過(guò)傳統(tǒng)的管理方式已不能高效管理檔案,這就需要充分利用計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)。在檔案管理系統(tǒng)中應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)可以確保檔案信息的安全性,提高管理檔案的效率,還能優(yōu)化檔案數(shù)據(jù)的檢索??傊?,基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)對(duì)完善檔案管理系統(tǒng)發(fā)揮著十分重要的作用。

2基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)概述

基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)是當(dāng)代新開發(fā)的一種數(shù)據(jù)處理技術(shù),它可以從大數(shù)據(jù)中挑選出人們需要的數(shù)據(jù)。計(jì)算機(jī)數(shù)據(jù)挖掘是一個(gè)循環(huán)往復(fù)的過(guò)程,如果沒有取得預(yù)期的效果,計(jì)算機(jī)數(shù)據(jù)挖掘信息處理系統(tǒng)就會(huì)返回上一層重新工作,直到完成目標(biāo)任務(wù)為止,這種對(duì)目標(biāo)的細(xì)化過(guò)程可以滿足檔案數(shù)據(jù)檢索的需要。

3基于大數(shù)據(jù)的計(jì)算機(jī)挖掘技術(shù)在檔案管理系統(tǒng)中的作用

3.1提高檔案信息的安全性。無(wú)論是文字檔案、圖片檔案還是其他形式的檔案,都是一種寶貴的資料。越是意義重大的檔案,檔案管理人員就越要想方設(shè)法將其保存起來(lái)。檔案的價(jià)值隨著其保存時(shí)間的不斷推移而增加,價(jià)值越高的檔案,被使用的頻率就越高,但是如果使用過(guò)于頻繁的話,就會(huì)縮短檔案資料的壽命,加大保存難度。除此之外,有的檔案信息是保密的,在應(yīng)用時(shí)如果監(jiān)管不力就會(huì)導(dǎo)致機(jī)密泄露。由以上可見,檔案的保存與使用儼然已互為對(duì)立面了。將計(jì)算機(jī)挖掘技術(shù)應(yīng)用到檔案管理中則對(duì)檔案資料的完整性毫無(wú)影響,并且還可以提高檔案信息的安全性。3.2提高檔案信息管理的效率。在檔案管理工作中應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù),可以極大改變傳統(tǒng)檔案管理模式低效率的弊端。使用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù),大大提高了工作人員處理檔案信息的速度,同樣的工作使用的時(shí)間極大減少。鑒定檔案是檔案管理工作中的重要組成部分,傳統(tǒng)的鑒定方式是由管理人員根據(jù)自己的經(jīng)驗(yàn)進(jìn)行主觀鑒定,有時(shí)會(huì)存在有價(jià)值的檔案丟失的現(xiàn)象。應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù),檔案管理人員就可以利用計(jì)算機(jī)系統(tǒng)分析檔案使用和保存的情況,促進(jìn)了檔案鑒定工作的發(fā)展。3.3提高了檔案信息的使用效率。大部分檔案信息具有一定的機(jī)密性,所以檔案的借閱并不是向全社會(huì)公開的,而是有范圍限制的,但是由于檔案管理人員和借閱者對(duì)檔案信息不熟悉,導(dǎo)致雙方的溝通存在一定的問題,在借閱者提出申請(qǐng)之后,檔案管理人員會(huì)將檔案資料調(diào)出來(lái),有時(shí)調(diào)出來(lái)的資料不是借閱者所需要的,還得重新調(diào)閱,類似的過(guò)程就嚴(yán)重浪費(fèi)了雙方的時(shí)間。應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)可以促進(jìn)檔案管理人員和借閱者之間的交流,讓檔案管理者明確借閱者需要的具體檔案信息,從而形成專門的檔案提供渠道,這就大大提高了檔案信息的使用效率。3.4增強(qiáng)檔案信息的服務(wù)性。加密檔案信息會(huì)嚴(yán)重縮小它的適用范圍,受當(dāng)代信息化的影響,很多檔案信息自身會(huì)出現(xiàn)一些問題,并且只能為一小部分人服務(wù)。將計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用到檔案信息管理中,可以具體分析檔案的使用情況,通過(guò)研究發(fā)現(xiàn)未來(lái)使用檔案信息的人群,在此基礎(chǔ)上提高檔案信息的服務(wù)性。

4基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案管理中的實(shí)際應(yīng)用

4.1在檔案分類管理中的應(yīng)用。檔案管理的基礎(chǔ)工作就是將檔案進(jìn)行分類。傳統(tǒng)的分類方法既費(fèi)時(shí)又費(fèi)力,工作效率極低。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)中有一種決策樹算法,它可以在最短的時(shí)間內(nèi)按照一定的規(guī)則將不同屬性的檔案信息進(jìn)行分類和整理,大大提高了檔案分類工作的效率。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案分類工作中的具體流程是:從大量不同種類的數(shù)據(jù)集中選擇一些數(shù)據(jù)組合成訓(xùn)練集,然后應(yīng)用到?jīng)]有進(jìn)行分類的檔案管理中,這樣可以幫助管理者根據(jù)借閱者對(duì)檔案信息的需求來(lái)對(duì)檔案進(jìn)行分類,同時(shí)還可以根據(jù)借閱者的需求為其推薦其他檔案信息。通過(guò)這些針對(duì)性強(qiáng)的數(shù)據(jù)分析,可以極大縮短借閱者獲取檔案信息的時(shí)間,檔案數(shù)據(jù)的利用價(jià)值就能充分發(fā)揮出來(lái)。4.2在檔案收集管理中的應(yīng)用。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)可以根據(jù)數(shù)據(jù)庫(kù)內(nèi)部的數(shù)據(jù)信息描述來(lái)構(gòu)建一個(gè)相應(yīng)的數(shù)據(jù)模型,然后比較計(jì)算機(jī)數(shù)據(jù)樣本和數(shù)據(jù)模型之間的差異,如果這二者互相吻合,就需要檔案管理人員使用測(cè)試樣本模型來(lái)對(duì)檔案信息進(jìn)行分類處理。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)需要全面分析檔案數(shù)據(jù)信息庫(kù)中的數(shù)據(jù),建立一個(gè)對(duì)已知數(shù)據(jù)有詳細(xì)描述的概念模型,并與測(cè)試樣本進(jìn)行對(duì)比,如果一個(gè)模型測(cè)試通過(guò),就證明這個(gè)模型可以應(yīng)用在檔案收集管理中。

5結(jié)語(yǔ)

綜上所述,在科技技術(shù)不斷進(jìn)步的時(shí)代背景下,在檔案信息管理中應(yīng)用基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)已成為一種必然趨勢(shì),它可以極大提高檔案信息管理的工作效率,促進(jìn)檔案管理的高效發(fā)展。除了在檔案信息存儲(chǔ)和利用上確?;镜男畔⒉樵兎?wù)外,還需要應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)整合檔案信息,建立眾多檔案管理服務(wù)數(shù)據(jù)之間的關(guān)聯(lián),這樣才能為檔案信息管理提供更好的服務(wù)。

作者:陳皓穎 單位:昆明理工大學(xué)津橋?qū)W院

參考文獻(xiàn)

[1]高燕飛,陳俊杰.試析計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運(yùn)用[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2012(4):44-46.

[2]曾雪峰.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)及其在檔案信息管理中的運(yùn)用研究[J].科技創(chuàng)新與應(yīng)用,2016(9):285.

[3]李國(guó)強(qiáng),曹巧蓮,辛正宇,等.淺談數(shù)據(jù)處理的新技術(shù)———數(shù)據(jù)挖掘[J].科技創(chuàng)新與生產(chǎn)力,2010(6).

[4]周碧珍.淺析計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的應(yīng)用[J].黑龍江科技信息,2009(1).

篇5

關(guān)鍵詞 情報(bào)學(xué);碩士論文;關(guān)鍵詞

中圖分類號(hào)G251 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674-6708(2014)114-0013-02

當(dāng)前,世界各國(guó)的許多高等院校和科學(xué)研究機(jī)構(gòu)都在加強(qiáng)對(duì)圖書情報(bào)的研究,許多世界一流院校,比如Harvard University(哈佛大學(xué))、Princeton University(普林斯頓大學(xué))、Yale University(耶魯大學(xué))、Massachusetts Inst. of Technology(麻省理工學(xué)院)等都建立了比較完善的情報(bào)學(xué)教育體系。而比較而言,在我國(guó)高等院校與科研院所對(duì)圖書情報(bào)學(xué)的相關(guān)研究,明顯要相對(duì)落后,近年來(lái)隨著改革開放的深入推進(jìn),有關(guān)情報(bào)學(xué)的招生和課題研究有所提升,并呈現(xiàn)出較為快速的增長(zhǎng)態(tài)勢(shì),然而由于研究?jī)?nèi)容相對(duì)較為高深,而且研究的靶場(chǎng)顯得較為前沿化與多元化?;陉P(guān)鍵詞對(duì)學(xué)位論文進(jìn)行統(tǒng)計(jì)、研究與分析是文獻(xiàn)計(jì)量學(xué)的范疇,是圖書情報(bào)學(xué)研究的重要內(nèi)容。即以學(xué)位文獻(xiàn)或?qū)W位文獻(xiàn)的某些特點(diǎn)為標(biāo)的,以聚集梳理一定數(shù)量文獻(xiàn)為基礎(chǔ),由此展開對(duì)某一時(shí)域某一領(lǐng)域科學(xué)技術(shù)基本狀況與基本特征的研究,并由此論述和預(yù)測(cè)該領(lǐng)域科學(xué)技術(shù)在今后一段時(shí)期的研究趨勢(shì)與特點(diǎn)規(guī)律態(tài)勢(shì)?;讵?dú)特關(guān)鍵詞進(jìn)行圖書情報(bào)領(lǐng)域的碩士學(xué)位論文進(jìn)行分析,是情報(bào)學(xué)研究的一項(xiàng)重要方法,是一種將文獻(xiàn)資料中的眾多核心要素關(guān)聯(lián)起來(lái),進(jìn)行統(tǒng)計(jì)分析的引證分析方法,其可以較為科學(xué)地評(píng)價(jià)文獻(xiàn)所研究與發(fā)展的現(xiàn)狀和趨勢(shì),揭示學(xué)科當(dāng)時(shí)研究的熱點(diǎn),較為準(zhǔn)確地評(píng)價(jià)文獻(xiàn)所代表的學(xué)術(shù)水平。

1 研究對(duì)象數(shù)據(jù)來(lái)源

本文研究的對(duì)象定位于對(duì)國(guó)內(nèi)圖書情報(bào)領(lǐng)域這一總體框架,并于此基礎(chǔ)上將“靶向”集中于碩士學(xué)位論文的統(tǒng)計(jì)、分析與研究,將“靶標(biāo)”聚集到碩士學(xué)位論文的研究熱點(diǎn)、趨勢(shì)、重點(diǎn)、前沿以及其變化情況,從而更加清晰地梳理出我國(guó)情報(bào)學(xué)研究的發(fā)展脈絡(luò),從而為我國(guó)情報(bào)學(xué)教育發(fā)展提供參考。研究的主要數(shù)據(jù)來(lái)源集中于國(guó)內(nèi)著名的學(xué)位論文收集庫(kù)――中國(guó)知網(wǎng)CNKI學(xué)術(shù)文獻(xiàn)總庫(kù)、維普期刊資源整合服務(wù)平臺(tái)與萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)“三大論文數(shù)據(jù)庫(kù)”,以及國(guó)內(nèi)高等院校圖書館自建特色數(shù)據(jù)庫(kù)。其中,中國(guó)知網(wǎng)CNKI和萬(wàn)方數(shù)據(jù)庫(kù)是國(guó)內(nèi)收錄學(xué)位論文最為全面的數(shù)據(jù)庫(kù),因此,為了確保分析研究的數(shù)據(jù)具有較高可信度與代表性,分析研究檢索的數(shù)據(jù)源即來(lái)自該兩個(gè)數(shù)據(jù)庫(kù),著重定位于“學(xué)科專業(yè)名稱”、“學(xué)科專業(yè)分類”選項(xiàng)進(jìn)行檢索,而檢索的時(shí)間區(qū)域定位于近10年,對(duì)于兩個(gè)數(shù)據(jù)庫(kù)檢索出來(lái)的文獻(xiàn),對(duì)于相同的通過(guò)采用SQL 語(yǔ)句進(jìn)行篩選,剔除重復(fù)的以及不符合的。

由此,以“情報(bào)學(xué)”作為檢索詞,從中國(guó)知網(wǎng)CNKI數(shù)據(jù)庫(kù)獲得1640篇碩士論文,從萬(wàn)方數(shù)據(jù)庫(kù)中獲致1315篇碩士論文,通過(guò)SQL篩選剔除重復(fù)的以及不符合的795篇,總共獲得有效國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士論文2160篇。

2 基于高頻關(guān)鍵詞的國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文特點(diǎn)

通過(guò)對(duì)獲取到的2160篇國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士論文進(jìn)行研究,綜合統(tǒng)計(jì)論文的關(guān)鍵詞,累計(jì)關(guān)鍵詞有13976個(gè),經(jīng)過(guò)分析研究,去除不能表達(dá)論文主題概念的關(guān)鍵詞3645個(gè),共得10331個(gè),平均每篇碩士文獻(xiàn)關(guān)鍵詞數(shù)為4.78個(gè),由此可說(shuō)明該統(tǒng)計(jì)是科學(xué)的,與國(guó)外科文獻(xiàn)資料對(duì)關(guān)鍵詞的標(biāo)引規(guī)則相符(國(guó)內(nèi)外科技期刊要求的每篇關(guān)鍵詞應(yīng)標(biāo)出 3-8 個(gè)),接著對(duì)關(guān)鍵詞的詞頻進(jìn)行統(tǒng)計(jì)分析,將關(guān)鍵詞的頻度大于60作為標(biāo)準(zhǔn),將其定義為“高頻詞”,通過(guò)對(duì)“高頻詞”的統(tǒng)計(jì)分析,可以非常清晰地看出,有關(guān)“知識(shí)管理”這一主題的頻次最高,多達(dá)126次。無(wú)疑,這也證實(shí)了近些年來(lái),學(xué)術(shù)界對(duì)知識(shí)管理這個(gè)方向的研究熱點(diǎn)。此外,“電子商務(wù)”為121次、“信息化”為118次、“信息技術(shù)”為112次、“競(jìng)爭(zhēng)情報(bào)”為102次、“信息服務(wù)”為98次、“信息檢索”為96次、“數(shù)據(jù)挖掘”為87次、“數(shù)字圖書”為84次、“信息資源”為79次、“電子政務(wù)”為75次、 “知識(shí)服務(wù)”為71次、“知識(shí)共享”為68次、“數(shù)據(jù)倉(cāng)庫(kù)”為63次,從中也反映了我國(guó)對(duì)信息化建設(shè)、知識(shí)服務(wù)、數(shù)字化建設(shè)等關(guān)注在日益提升,也驗(yàn)證了我國(guó)國(guó)務(wù)院學(xué)位委員會(huì)重新頒布的《授予博士、碩士學(xué)位和培養(yǎng)研究生的學(xué)科、專業(yè)目錄》中“圖書館、情報(bào)與檔案管理”的實(shí)效,表明了情報(bào)學(xué)與管理學(xué)之間滲透和結(jié)合日益加強(qiáng),也可以折射出當(dāng)前研究的重點(diǎn)、熱點(diǎn)仍然集中在情報(bào)學(xué)基礎(chǔ)領(lǐng)域,并預(yù)示著今后情報(bào)學(xué)研究的一個(gè)重點(diǎn)將是對(duì)網(wǎng)絡(luò)信息資源的開發(fā)、整合與利用。

3 基于聚類共詞的國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文特點(diǎn)

通常來(lái)說(shuō),僅僅通過(guò)孤獨(dú)地察看論文的某一關(guān)鍵詞,通常是難以有充足的理由說(shuō)明該論文所研究的主題,然而通過(guò)關(guān)注兩個(gè)或者兩個(gè)以上的關(guān)鍵詞,將可以給予人們更加充分的信息去把握論文的大致內(nèi)容和論文的主題脈絡(luò)。通過(guò)采取計(jì)算機(jī)數(shù)字高效處理作用,充分發(fā)揮Excel的數(shù)據(jù)透視功能,再次對(duì)出現(xiàn)次數(shù)高于60的高頻出現(xiàn)的關(guān)鍵詞進(jìn)行“聚類性”分析,統(tǒng)計(jì)在同一論文中兩兩同時(shí)出現(xiàn)的關(guān)鍵詞,從而構(gòu)建出60 × 60的“聚類共詞矩陣”,通過(guò)這一矩陣的研究,非常清晰地顯示出“聚類共詞矩陣”是一個(gè)對(duì)稱矩陣,其中位于矩陣對(duì)角線上的數(shù)據(jù)顯示的是某關(guān)鍵詞自身一同出現(xiàn)的頻次,這個(gè)一同出現(xiàn)的現(xiàn)象就實(shí)質(zhì)來(lái)說(shuō),就是論文之間的相關(guān)度,對(duì)于非對(duì)角線上的數(shù)據(jù),則表示不同關(guān)鍵詞之間的共現(xiàn)頻次。通過(guò)這個(gè)矩陣可以從另一個(gè)側(cè)反題出,關(guān)鍵詞分布既有交叉、相互滲透又具有群組分布的獨(dú)立性。通過(guò)Excel的數(shù)據(jù)透視處理得到共現(xiàn)頻次較高的有:“知識(shí)管理”為124次,“電子商務(wù)”為106次,“競(jìng)爭(zhēng)情報(bào)”為101次,“高校圖書館”為98次,“信息服務(wù)”為92次,“數(shù)據(jù)挖掘”為87次,“數(shù)學(xué)圖書館”為83次,“信息資源”為81次,“電子政務(wù)”為79次,“知識(shí)共享”為72次,“數(shù)據(jù)倉(cāng)庫(kù)”為66次。由此可以看出,在國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文的研究主題中,當(dāng)前基于數(shù)字化、信息化、電子化的知識(shí)管理與數(shù)據(jù)挖掘是個(gè)熱點(diǎn),同時(shí)也說(shuō)明我國(guó)情報(bào)學(xué)教育研究的領(lǐng)域在不斷拓寬。

綜合以上,關(guān)注獨(dú)特關(guān)鍵詞下國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文研究的學(xué)科結(jié)構(gòu)特點(diǎn),獲得了基于高頻關(guān)鍵詞的國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文特點(diǎn),以及基于聚類共詞的國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文特點(diǎn),通過(guò)對(duì)研究結(jié)果的比較分析,得出了一些有較為充足理由支撐的結(jié)論,那就是從中可以較為清晰地得出,當(dāng)前以及今后一段時(shí)期國(guó)內(nèi)圖書情報(bào)領(lǐng)域碩士學(xué)位論文研究的側(cè)重點(diǎn)在于“數(shù)字化、信息化、電子化的知識(shí)管理與數(shù)據(jù)信息挖掘”。

參考文獻(xiàn)

[1]曾學(xué)喜.網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警指標(biāo)體系構(gòu)建[J].情報(bào)理論與實(shí)踐,2013(11).

[2]Miao Adam X,Zacharias Greg L.A computational situation assessment model for nuclear power plant operations[J].IEEE Transactions on systems,Man and Cybernetics,2011(9).

篇6

醫(yī)學(xué)論文是醫(yī)學(xué)科研工作的最后階段,通過(guò)文字形式記錄醫(yī)學(xué)研究的最新結(jié)果。因此,撰寫醫(yī)學(xué)論文要把握醫(yī)學(xué)論文的基本要求、選題方法及一般體裁,從而達(dá)到主題和形式的和諧統(tǒng)一。

1 醫(yī)學(xué)論文的基本要求

1.1 創(chuàng)新性醫(yī)學(xué)論文的創(chuàng)新性是指文章要有新意,要發(fā)展醫(yī)學(xué)成就,破解醫(yī)學(xué)問題。醫(yī)學(xué)論文有無(wú)創(chuàng)新,選題是關(guān)鍵。選題創(chuàng)新是醫(yī)學(xué)論文寫作的靈魂,是衡量醫(yī)學(xué)論文價(jià)值的重要標(biāo)準(zhǔn)。可體現(xiàn)在:①理論方面的選題應(yīng)有創(chuàng)新見解,既要反映作者在某些理論方面的獨(dú)創(chuàng)見解,又要提出這些見解的依據(jù);②應(yīng)用方面的選題應(yīng)有創(chuàng)新技術(shù)等,也就是要寫出新發(fā)明、新技術(shù)、新產(chǎn)品、新設(shè)備的關(guān)鍵,或揭示原有技術(shù)移植到新的醫(yī)學(xué)領(lǐng)域中的效果;③創(chuàng)新性還包括研究方法方面的改進(jìn)或突破。

1.2 可行性 所謂選題的可行性,是指能夠充分發(fā)揮作者的綜合條件和可以勝任及如期完成醫(yī)學(xué)論文寫作的把握程度。選題切忌好高鶩遠(yuǎn),脫離實(shí)際,但也不應(yīng)過(guò)低,影響主客觀的正常發(fā)揮,降低了醫(yī)學(xué)論文的水平。影響選題的可行性因素有:①主觀條件,包括作者知識(shí)素質(zhì)結(jié)構(gòu)、研究能力、技術(shù)水平及特長(zhǎng)和興趣等;②客觀條件,包括經(jīng)費(fèi)、資料、時(shí)間、設(shè)備等。

1.3 實(shí)用性 撰寫醫(yī)學(xué)論文的目的是為了交流及應(yīng)用。要從實(shí)際出發(fā),選擇夠指導(dǎo)科研、指導(dǎo)臨床、造福人類的主題,因此,選題的實(shí)用性尤為重要。

1.4 科學(xué)性 醫(yī)學(xué)論文是臨床和醫(yī)學(xué)科學(xué)研究工作的客觀反映,其寫作的具體內(nèi)容應(yīng)該是取材客觀真實(shí)、主題揭示本質(zhì)、科研設(shè)計(jì)合理、論證科學(xué)嚴(yán)謹(jǐn)、表達(dá)邏輯性強(qiáng)、經(jīng)過(guò)實(shí)踐檢驗(yàn)。所以,嚴(yán)格遵守選題的科學(xué)性原則,是醫(yī)學(xué)論文寫作的生命

1.5 前瞻性 要選擇有研究?jī)r(jià)值及發(fā)展前途的主題,應(yīng)積極開發(fā)研究新領(lǐng)域、新學(xué)科和新理論。2 選題的基本方法

2.1 根據(jù)課題研究的結(jié)論來(lái)確定主題 這是常用的方法,可分為:①以科研的結(jié)論或部分結(jié)論作為醫(yī)學(xué)論文的主題;②科研結(jié)果與開題時(shí)預(yù)測(cè)不一致,待查出原因后,再尋找主題;③科研達(dá)不到預(yù)期結(jié)果,可總結(jié)經(jīng)驗(yàn),從反面挖掘主題。

2.2 在科研過(guò)程中選題 醫(yī)學(xué)科研的過(guò)程中,有時(shí)會(huì)出現(xiàn)意外的現(xiàn)象或問題,作者如果能夠細(xì)心觀察、及時(shí)發(fā)現(xiàn),可以在這些偶然中獲得新的選題。

2.3 在臨床實(shí)踐中選題 臨床工作是醫(yī)學(xué)論文寫作取之不盡的源泉,作者在臨床中會(huì)經(jīng)常遇到許多需要解決的實(shí)際應(yīng)用問題或理論問題,對(duì)此,只要從本學(xué)科實(shí)際出發(fā),用心思考,會(huì)從中產(chǎn)生很多好的主題。其包括:①探討發(fā)病機(jī)制與預(yù)后情況;②分析臨床癥狀與表現(xiàn);③研究診斷方法和治療方法;④疾病的多因素分析等。

2.4 從文獻(xiàn)資料中選題 醫(yī)學(xué)文獻(xiàn)是人們長(zhǎng)期積累的寶貴財(cái)富,是醫(yī)學(xué)論文選題的重要來(lái)源。閱讀最新文獻(xiàn)資料,可以了解當(dāng)前醫(yī)學(xué)科學(xué)研究的進(jìn)展情況,開拓思路、激發(fā)靈感,從而挖掘提煉出好的醫(yī)學(xué)論文主題。

3 醫(yī)學(xué)論文的一般體裁

3.1 實(shí)驗(yàn)研究 一般為病因、病理、生理、生化、藥理、生物、寄生蟲和流行病學(xué)等實(shí)驗(yàn)研究。主要包括:①對(duì)各種動(dòng)物進(jìn)行藥理、毒理實(shí)驗(yàn),外科手術(shù)實(shí)驗(yàn);②對(duì)某種疾病的病原或病因的體外實(shí)驗(yàn);③某些藥物的抗癌、抗菌、抗寄生蟲實(shí)驗(yàn);④消毒、殺蟲和滅菌的實(shí)驗(yàn)。

3.2 臨床分析 對(duì)臨床上某種疾病病例(百例以上為佳)的病因、臨床表現(xiàn)、分型、治療方法

和療效觀察等進(jìn)行分析、討論,總結(jié)經(jīng)驗(yàn)教訓(xùn),并提出新建議、新見解,以提高臨床療效。

3.3 療效觀察 指使用某種新藥、新療法治療某種疾病,對(duì)治療的方法、效果、劑量、療程及不良反應(yīng)等進(jìn)行觀察、研究,或設(shè)立對(duì)照組對(duì)新舊藥物或療法的療效進(jìn)行比較,對(duì)比療效的高低、療法的優(yōu)劣、不良反應(yīng)的種類及程度,并對(duì)是否適于推廣應(yīng)用提出評(píng)價(jià)意見。

3.4 病例報(bào)告 主要報(bào)告罕見病及疑難重癥;雖然曾有少數(shù)類似報(bào)道但尚有重復(fù)驗(yàn)證或加深認(rèn)識(shí)的必要。

3.5 病例(理)討論 臨床病例討論主要是對(duì)某些疑難、復(fù)雜、易于誤診誤治的病例,在診斷和治療方面進(jìn)行集體討論,以求得正確的診斷和有效的治療。臨床病理討論則以對(duì)少見或疑難疾病的病理檢查、診斷及相關(guān)討論為主。

3.6 調(diào)查報(bào)告 在一定范圍的人群里,不施加人工處理因素,對(duì)某一疾?。▊魅静 ⒘餍胁?、職業(yè)病、地方病等)的發(fā)病情況、發(fā)病因素、病理、防治方法及其效果進(jìn)行流行病學(xué)調(diào)查研究,給予評(píng)價(jià),并對(duì)防治方案等提出建議。

篇7

1.1創(chuàng)新性醫(yī)學(xué)論文的創(chuàng)新性是指文章要有新意,要發(fā)展醫(yī)學(xué)成就,破解醫(yī)學(xué)問題。醫(yī)學(xué)論文有無(wú)創(chuàng)新,選題是關(guān)鍵。選題創(chuàng)新是醫(yī)學(xué)論文寫作的靈魂,是衡量醫(yī)學(xué)論文價(jià)值的重要標(biāo)準(zhǔn)??审w現(xiàn)在:①理論方面的選題應(yīng)有創(chuàng)新見解,既要反映作者在某些理論方面的獨(dú)創(chuàng)見解,又要提出這些見解的依據(jù);②應(yīng)用方面的選題應(yīng)有創(chuàng)新技術(shù)等,也就是要寫出新發(fā)明、新技術(shù)、新產(chǎn)品、新設(shè)備的關(guān)鍵,或揭示原有技術(shù)移植到新的醫(yī)學(xué)領(lǐng)域中的效果;③創(chuàng)新性還包括研究方法方面的改進(jìn)或突破。

1.2可行性所謂選題的可行性,是指能夠充分發(fā)揮作者的綜合條件和可以勝任及如期完成醫(yī)學(xué)論文寫作的把握程度。選題切忌好高鶩遠(yuǎn),脫離實(shí)際,但也不應(yīng)過(guò)低,影響主客觀的正常發(fā)揮,降低了醫(yī)學(xué)論文的水平。影響選題的可行性因素有:①主觀條件,包括作者知識(shí)素質(zhì)結(jié)構(gòu)、研究能力、技術(shù)水平及特長(zhǎng)和興趣等;②客觀條件,包括經(jīng)費(fèi)、資料、時(shí)間、設(shè)備等。

1.3實(shí)用性撰寫醫(yī)學(xué)論文的目的是為了交流及應(yīng)用。要從實(shí)際出發(fā),選擇夠指導(dǎo)科研、指導(dǎo)臨床、造福人類的主題,因此,選題的實(shí)用性尤為重要。

1.4科學(xué)性醫(yī)學(xué)論文是臨床和醫(yī)學(xué)科學(xué)研究工作的客觀反映,其寫作的具體內(nèi)容應(yīng)該是取材客觀真實(shí)、主題揭示本質(zhì)、科研設(shè)計(jì)合理、論證科學(xué)嚴(yán)謹(jǐn)、表達(dá)邏輯性強(qiáng)、經(jīng)過(guò)實(shí)踐檢驗(yàn)。所以,嚴(yán)格遵守選題的科學(xué)性原則,是醫(yī)學(xué)論文寫作的生命。

1.5前瞻性要選擇有研究?jī)r(jià)值及發(fā)展前途的主題,應(yīng)積極開發(fā)研究新領(lǐng)域、新學(xué)科和新理論。

2選題的基本方法

2.1根據(jù)課題研究的結(jié)論來(lái)確定主題這是常用的方法,可分為:①以科研的結(jié)論或部分結(jié)論作為醫(yī)學(xué)論文的主題;②科研結(jié)果與開題時(shí)預(yù)測(cè)不一致,待查出原因后,再尋找主題;③科研達(dá)不到預(yù)期結(jié)果,可總結(jié)經(jīng)驗(yàn),從反面挖掘主題。

2.2在科研過(guò)程中選題醫(yī)學(xué)科研的過(guò)程中,有時(shí)會(huì)出現(xiàn)意外的現(xiàn)象或問題,作者如果能夠細(xì)心觀察、及時(shí)發(fā)現(xiàn),可以在這些偶然中獲得新的選題。

2.3在臨床實(shí)踐中選題臨床工作是醫(yī)學(xué)論文寫作取之不盡的源泉,作者在臨床中會(huì)經(jīng)常遇到許多需要解決的實(shí)際應(yīng)用問題或理論問題,對(duì)此,只要從本學(xué)科實(shí)際出發(fā),用心思考,會(huì)從中產(chǎn)生很多好的主題。其包括:①探討發(fā)病機(jī)制與預(yù)后情況;②分析臨床癥狀與表現(xiàn);③研究診斷方法和治療方法;④疾病的多因素分析等。

2.4從文獻(xiàn)資料中選題醫(yī)學(xué)文獻(xiàn)是人們長(zhǎng)期積累的寶貴財(cái)富,是醫(yī)學(xué)論文選題的重要來(lái)源。閱讀最新文獻(xiàn)資料,可以了解當(dāng)前醫(yī)學(xué)科學(xué)研究的進(jìn)展情況,開拓思路、激發(fā)靈感,從而挖掘提煉出好的醫(yī)學(xué)論文主題。

3醫(yī)學(xué)論文的一般體裁

3.1實(shí)驗(yàn)研究一般為病因、病理、生理、生化、藥理、生物、寄生蟲和流行病學(xué)等實(shí)驗(yàn)研究。主要包括:①對(duì)各種動(dòng)物進(jìn)行藥理、毒理實(shí)驗(yàn),外科手術(shù)實(shí)驗(yàn);②對(duì)某種疾病的病原或病因的體外實(shí)驗(yàn);③某些藥物的抗癌、抗菌、抗寄生蟲實(shí)驗(yàn);④消毒、殺蟲和滅菌的實(shí)驗(yàn)。

3.2臨床分析對(duì)臨床上某種疾病病例(百例以上為佳)的病因、臨床表現(xiàn)、分型、治療方法和療效觀察等進(jìn)行分析、討論,總結(jié)經(jīng)驗(yàn)教訓(xùn),并提出新建議、新見解,以提高臨床療效。

3.3療效觀察指使用某種新藥、新療法治療某種疾病,對(duì)治療的方法、效果、劑量、療程及不良反應(yīng)等進(jìn)行觀察、研究,或設(shè)立對(duì)照組對(duì)新舊藥物或療法的療效進(jìn)行比較,對(duì)比療效的高低、療法的優(yōu)劣、不良反應(yīng)的種類及程度,并對(duì)是否適于推廣應(yīng)用提出評(píng)價(jià)意見。

3.4病例報(bào)告主要報(bào)告罕見病及疑難重癥;雖然曾有少數(shù)類似報(bào)道但尚有重復(fù)驗(yàn)證或加深認(rèn)識(shí)的必要。

3.5病例(理)討論臨床病例討論主要是對(duì)某些疑難、復(fù)雜、易于誤診誤治的病例,在診斷和治療方面進(jìn)行集體討論,以求得正確的診斷和有效的治療。臨床病理討論則以對(duì)少見或疑難疾病的病理檢查、診斷及相關(guān)討論為主。

3.6調(diào)查報(bào)告在一定范圍的人群里,不施加人工處理因素,對(duì)某一疾?。▊魅静 ⒘餍胁?、職業(yè)病、地方病等)的發(fā)病情況、發(fā)病因素、病理、防治方法及其效果進(jìn)行流行病學(xué)調(diào)查研究,給予評(píng)價(jià),并對(duì)防治方案等提出建議。

篇8

關(guān)鍵詞:研究型;學(xué)習(xí);培養(yǎng);科研實(shí)踐

對(duì)于高校而言,研究生既是知識(shí)傳授的對(duì)象,又是日常科研工作的參與者,其理論學(xué)習(xí)過(guò)程和科研能力的培養(yǎng)相互交融且呈現(xiàn)多變的特點(diǎn)。[1][2][3]

筆者目前暫不具備獨(dú)立招收研究生的資格,但依托研究團(tuán)隊(duì)和所承擔(dān)的科研項(xiàng)目,每年都會(huì)協(xié)助指導(dǎo)若干名研究生(碩士生、博士生)順利畢業(yè)。在協(xié)助指導(dǎo)這些研究生學(xué)習(xí)和開展科研工作的過(guò)程中,積累了一些經(jīng)驗(yàn)。結(jié)合筆者2013~2014年前往英國(guó)訪問交流一年過(guò)程中參加教學(xué)培訓(xùn)項(xiàng)目和科研合作項(xiàng)目的體會(huì),本文從研究型學(xué)習(xí)方法及其在科研實(shí)踐中的應(yīng)用等方面淺析研究生培養(yǎng)工作的體會(huì)。

一、基于研究型學(xué)習(xí)的培養(yǎng)特點(diǎn)剖析

1.基于研究心態(tài)的理論知識(shí)學(xué)習(xí)

為了便于開展科研理論分析工作, 研究生培養(yǎng)的初期階段需要有針對(duì)性地選擇專業(yè)課程知識(shí)學(xué)習(xí),而專業(yè)課的授課內(nèi)容更突出針對(duì)性和研究性。[4][5]研究生若帶著研究的心態(tài)學(xué)習(xí)這些專業(yè)課程,必將在學(xué)習(xí)過(guò)程中能更好地鍛煉對(duì)科學(xué)問題的認(rèn)識(shí)、分析和解決的能力。

實(shí)現(xiàn)專業(yè)課程的研究型學(xué)習(xí),對(duì)專業(yè)課的講授方式和內(nèi)容設(shè)置也提出了一定的要求。筆者在英國(guó)哈德菲爾德大學(xué)留學(xué)期間,對(duì)于該校課程設(shè)置和講授方式深有感觸。在跟課的“Dynamic Analysis and Control”課程中,主講教師通過(guò)設(shè)置多個(gè)實(shí)際工程應(yīng)用案例開展授課內(nèi)容講解,實(shí)例中計(jì)算數(shù)據(jù)均來(lái)自實(shí)際工業(yè)系統(tǒng),布置的作業(yè)也與科研項(xiàng)目緊密相關(guān)。這種研究型的授課和學(xué)習(xí)模式,可以使得研究生對(duì)所學(xué)內(nèi)容的整體把握和應(yīng)用有了更為直觀的認(rèn)識(shí),對(duì)于今后開展研究工作也有觸類旁通的優(yōu)勢(shì)。

帶著研究的心態(tài)來(lái)學(xué)習(xí)理論知識(shí), 還可以通過(guò)對(duì)應(yīng)的科研實(shí)踐來(lái)鞏固研究生理論水平培養(yǎng)的效果。通過(guò)適當(dāng)?shù)目茖W(xué)研究實(shí)踐,將最新的科研成果和知識(shí)動(dòng)態(tài)融于理論學(xué)習(xí)過(guò)程,可以在一定程度上彌補(bǔ)理論學(xué)習(xí)的抽象性、知識(shí)的落后性等不足,實(shí)現(xiàn)研究生綜合科研素質(zhì)的扎實(shí)培養(yǎng)。[6]

2.基于主動(dòng)挖掘的科研實(shí)踐思維

研究生的培養(yǎng)中,“學(xué)”與“研”的培養(yǎng)相互作用、互為促進(jìn)。“學(xué)”是手段,“研”是目的。多學(xué)是為了更好地研究,深入的科研工作可以為主動(dòng)學(xué)習(xí)提供積極的動(dòng)力。

研究生通過(guò)理論知識(shí)學(xué)習(xí),具備了一定的獨(dú)立開展理論知識(shí)學(xué)習(xí)、獨(dú)立從事科研活動(dòng)的能力。將其引入科研項(xiàng)目中,根據(jù)個(gè)人特長(zhǎng)和興趣愛好進(jìn)行項(xiàng)目分工,可以充分調(diào)動(dòng)研究生的參與積極性和探索熱情,使其能夠自主地、全身心地投入到科研實(shí)踐活動(dòng)中。在此階段,研究生的科研實(shí)踐熱情被充分激發(fā)和釋放,將主動(dòng)收集與所研究領(lǐng)域有關(guān)的資料和文獻(xiàn),通過(guò)整理、消化和吸收,主動(dòng)挖掘更為深入的理論知識(shí)背景,形成獨(dú)立的見解和科研成果。

主動(dòng)挖掘的過(guò)程中,科研活動(dòng)促進(jìn)了理論知識(shí)的學(xué)習(xí),理論知識(shí)的挖掘提升了科研能力水平,體現(xiàn)了研究生培養(yǎng)的“研”“學(xué)”并重特點(diǎn),和以“研”促“學(xué)”的培養(yǎng)理念。

二、實(shí)踐研究型培養(yǎng)方法的一些舉措

1.科研實(shí)踐培養(yǎng)突出研究特點(diǎn)

(1)引導(dǎo)研究生承擔(dān)部分理論研究工作,培養(yǎng)從理論上解決技術(shù)難題,形成解決方案的能力。此外,研究生還要承擔(dān)一部分的工程任務(wù),以鍛煉其實(shí)踐能力,明確研究活動(dòng)的理論與實(shí)踐關(guān)系。

(2)構(gòu)建包括研究生在內(nèi)的研究團(tuán)隊(duì)定期學(xué)術(shù)討論與總結(jié)機(jī)制,以競(jìng)賽激發(fā)科研興趣,加強(qiáng)互聯(lián)網(wǎng)資源使用的引導(dǎo)??偨Y(jié)交流是提高研究水平的重要途徑,借助互聯(lián)網(wǎng)這一開放式學(xué)習(xí)平臺(tái),研究生可與組內(nèi)外、國(guó)內(nèi)外學(xué)者分享最新的研究成果,實(shí)現(xiàn)互補(bǔ)與互助提高。

(3)開展全面而深入的學(xué)術(shù)訪問和交流。學(xué)術(shù)無(wú)止境,交流共提高。研究生在培養(yǎng)階段應(yīng)該多走出校門,借助國(guó)內(nèi)外學(xué)術(shù)會(huì)議平臺(tái)培養(yǎng)建立學(xué)術(shù)聯(lián)系、提升交流水平和展示學(xué)術(shù)成果能力,為以后潛在的合作研究奠定基礎(chǔ)。筆者在英訪學(xué)期間,曾走訪了帝國(guó)理工學(xué)院、曼徹斯特大學(xué)、巴斯大學(xué)等知名學(xué)府,他們的科研硬條件一流,軟實(shí)力水平也非常高。這些大學(xué)的研究非常開放,很歡迎中國(guó)的留學(xué)生前去參與科研項(xiàng)目研究。國(guó)內(nèi)的研究生可以積極聯(lián)系這些單位,爭(zhēng)取去聯(lián)合培養(yǎng)的科學(xué)研究機(jī)會(huì)。

2.學(xué)術(shù)論文撰寫體現(xiàn)高度責(zé)任心

高水平學(xué)術(shù)論文的撰寫是檢驗(yàn)研究生培養(yǎng)成效和研究能力的一個(gè)有效手段。通過(guò)撰寫高水平學(xué)術(shù)論文,一方面研究生可以梳理理論學(xué)習(xí)過(guò)程中存在的不足,另一方面也可以凝練研究工作,提升學(xué)術(shù)研究的理論水平。

(1)論文選題要明確、突出研究?jī)r(jià)值,內(nèi)容要詳實(shí)、有據(jù)可依。所撰寫的內(nèi)容應(yīng)來(lái)源于自己的科學(xué)研究實(shí)踐中的所思所想,撰寫時(shí)需要精心設(shè)計(jì)論文內(nèi)容和組織結(jié)構(gòu),重視文獻(xiàn)查閱與閱讀工作,對(duì)所研究?jī)?nèi)容和發(fā)展現(xiàn)狀等要有深刻的認(rèn)識(shí)。

(2)論文撰寫要沉下去、靜下心, 敢于取舍。研究生在初學(xué)撰寫、修改論文時(shí),必須要靜下心、鉆進(jìn)去,腳踏實(shí)地一步一步鍛煉,不斷挖掘和提高理論深度。同時(shí),要讓論文的內(nèi)容充分地“沉淀”并經(jīng)得起推敲,過(guò)濾掉“雜質(zhì)”。筆者在訪學(xué)期間,與國(guó)外學(xué)者交流,他們通常的寫作過(guò)程是,首先用一到兩個(gè)月寫出論文初稿,然后將其放置一段時(shí)間后至自己忘記稿件內(nèi)容,再次閱讀并修改稿件。這種方法被他們形象地稱為“遺忘式”寫作方法,筆者實(shí)踐過(guò),確實(shí)行之有效。

3.行文注意豐富多變的科技詞匯運(yùn)用

學(xué)術(shù)論文通過(guò)嚴(yán)謹(jǐn)、凝練的表述來(lái)展示研究人員的理論研究成果,研究生在行文時(shí)如果英語(yǔ)基礎(chǔ)較好、寫作功底扎實(shí),則可以運(yùn)用豐富而準(zhǔn)確的科技詞匯來(lái)組織內(nèi)容,達(dá)到錦上添花的效果。廣泛閱讀英文參考文獻(xiàn)是擴(kuò)展詞匯量和提升英文行文水平的有效手段。

三、結(jié)論

研究生的培養(yǎng)是一個(gè)反復(fù)迭代的系統(tǒng)過(guò)程,帶著研究的心態(tài)去學(xué)習(xí)理論知識(shí)、將學(xué)習(xí)的過(guò)程融入科研實(shí)踐,從而提升研究生的理論水平和鍛煉科研能力,使其具備獨(dú)立開展科研工作的能力。通過(guò)這些有針對(duì)性的培養(yǎng)措施,可以顯著提高研究生培養(yǎng)質(zhì)量,為其日后順利走上工作崗位奠定基礎(chǔ)。

參考文獻(xiàn):

[1]黃文濤,趙學(xué)增.國(guó)外碩士研究生培養(yǎng)模式述評(píng)及啟示[J].研究生教育研究,2013(03).

[2]季俊杰.優(yōu)秀研究生科研能力的影響因素與啟示[J].研究生教育研究,2013(02).

[3]向 誠(chéng),柴 毅,王東紅,等.緊貼行業(yè)需求,校企協(xié)同培養(yǎng)控制工程領(lǐng)域高層次應(yīng)用型人才[J].學(xué)位與研究生教育,2014(04):11―15.

[4]汪 洋,高久群,汪華僑,等.香港中文大學(xué)研究生教育的特點(diǎn)及其啟示[J].學(xué)位與研究生教育,2014(06).

[5]郭雅麗,任永泰,鄧華玲.碩士研究生課程設(shè)置研究[J].研究生教育研究,2013(15):47―50.

篇9

關(guān)鍵詞:推薦系統(tǒng);云計(jì)算;數(shù)據(jù)挖掘;個(gè)性化

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10,3969/J.issn.1003-6970.2013.03.001

本文著錄格式:[1]郭平,劉波,沈岳,農(nóng)業(yè)云大數(shù)據(jù)自組織推送關(guān)鍵技術(shù)綜述[J].軟件,2013,34(3):1-6

0 引言

隨著物聯(lián)網(wǎng)、云計(jì)算、下一代互聯(lián)網(wǎng)等新一代信息技術(shù)的快速發(fā)展和信息內(nèi)容的日益增長(zhǎng),“信息過(guò)載”問題愈來(lái)愈嚴(yán)重,推薦系統(tǒng)(recommender systems)被認(rèn)為可以有效的緩解此難題,幫助用戶從海量數(shù)據(jù)中發(fā)現(xiàn)感興趣信息,滿足個(gè)性化需求。

近年來(lái),我國(guó)在農(nóng)業(yè)個(gè)性化知識(shí)服務(wù)服務(wù)領(lǐng)域從本體論、語(yǔ)義網(wǎng)、知識(shí)工程角度開展了廣泛的研究,成果主要體現(xiàn)在三個(gè)方面:以搜索引擎為代表的知識(shí)檢索系統(tǒng),需回答大量預(yù)設(shè)問題進(jìn)行知識(shí)推理的專家系統(tǒng),特定領(lǐng)域應(yīng)用系統(tǒng),它們?cè)诟髯缘膱?chǎng)合都發(fā)揮了積極作用。然而知識(shí)檢索系統(tǒng)不能滿足用戶個(gè)性化需求,專家系統(tǒng)的應(yīng)用很難普及,特定領(lǐng)域應(yīng)用開發(fā)成本高和重用難度大。物聯(lián)網(wǎng)與數(shù)據(jù)挖掘云服務(wù)提供知識(shí)服務(wù)云實(shí)現(xiàn)物理世界的“感知控”,知識(shí)服務(wù)云的研究主要集中在制造和圖書情報(bào)領(lǐng)域,云環(huán)境下的農(nóng)業(yè)個(gè)性化知識(shí)服務(wù)的研究尚處于起步階段,主要集中在服務(wù)模式的構(gòu)建與展望。

本文是對(duì)科技部科技支撐課題“農(nóng)村農(nóng)業(yè)信息化關(guān)鍵技術(shù)集成與示范”(2011BAD21803)與“農(nóng)村物聯(lián)網(wǎng)綜合信息服務(wù)科技工程”(2012BAD35800)研究成果的總結(jié),也是對(duì)農(nóng)業(yè)云推薦系統(tǒng)研究的升華。

1 農(nóng)業(yè)云大數(shù)據(jù)自組織區(qū)域推送的提出

1.1 農(nóng)業(yè)信息資源特點(diǎn)

我國(guó)自“十一五”時(shí)期以來(lái),農(nóng)業(yè)農(nóng)村信息化發(fā)展取得了顯著成效,主要表現(xiàn)在農(nóng)業(yè)農(nóng)村信息化基礎(chǔ)設(shè)施不斷完善、業(yè)務(wù)應(yīng)用深入發(fā)展、物聯(lián)網(wǎng)技術(shù)在農(nóng)業(yè)中逐步推廣應(yīng)用等方面。從中央到省,市、縣建立了“三農(nóng)”綜合信息服務(wù)平臺(tái),涉農(nóng)企業(yè)、組織和科研院所也積極搭建了各具特色的農(nóng)業(yè)信息服務(wù)平臺(tái),目前正向鄉(xiāng)鎮(zhèn)村發(fā)展。農(nóng)村信息員隊(duì)伍及以農(nóng)業(yè)綜合信息服務(wù)站和農(nóng)業(yè)合作社為代表的農(nóng)村信息服務(wù)機(jī)構(gòu)發(fā)展迅速,“三電合一”、“農(nóng)民信箱”、“農(nóng)村熱線”等信息服務(wù)模式應(yīng)用深入。云計(jì)算利用海量的存儲(chǔ)能力把農(nóng)業(yè)信息資源形成高度集成和虛擬化的計(jì)算資源一“農(nóng)業(yè)知識(shí)聚合云”,支持用戶在任意位置、使用各種終端方便獲取信息,但由于農(nóng)業(yè)領(lǐng)域生態(tài)區(qū)域性和過(guò)程復(fù)雜性及農(nóng)業(yè)區(qū)域發(fā)展不平衡和農(nóng)民文化的多層次性也帶來(lái)了“信息過(guò)載”、“資源隱晦”“資源迷向”等問題。

1.2 農(nóng)業(yè)云環(huán)境下大數(shù)據(jù)自組織區(qū)域推送

物聯(lián)網(wǎng)和云計(jì)算背后是大數(shù)據(jù),在云計(jì)算模式下,用戶不確定的、智能的交互,個(gè)性化需求更加多元化,信息交互行為更加頻繁;在大量用戶通過(guò)社會(huì)標(biāo)注達(dá)成共識(shí)的過(guò)程中,逐漸形成不同社區(qū),涌現(xiàn)出群體智能,形成“農(nóng)業(yè)用戶興趣社交云”。利用云的海量存儲(chǔ)、群體涌現(xiàn)智能、強(qiáng)大的計(jì)算能力和物聯(lián)網(wǎng)感知控優(yōu)勢(shì),可以提供面向用戶復(fù)雜分析計(jì)算,實(shí)現(xiàn)業(yè)務(wù)重點(diǎn)由面向應(yīng)用和資源的傳統(tǒng)信息服務(wù),轉(zhuǎn)變?yōu)榛趯?duì)海量農(nóng)業(yè)知識(shí)進(jìn)行動(dòng)態(tài)劃分,有目的、主動(dòng)、定制、自組織推送給有需求的農(nóng)業(yè)用戶,為農(nóng)業(yè)用戶提供實(shí)時(shí)性、個(gè)性化知識(shí)服務(wù),指導(dǎo)農(nóng)業(yè)生產(chǎn)過(guò)程。

首先以Hadoop+MapReduce+HBaSe分布式框架為處理平臺(tái),對(duì)“農(nóng)業(yè)用戶興趣社交云”,融合用戶興趣偏好和社交網(wǎng)絡(luò)進(jìn)行建模,將這些多元用戶信息充分融入推送系統(tǒng)會(huì)更好產(chǎn)生推薦結(jié)果;將推薦對(duì)象“農(nóng)業(yè)知識(shí)聚合云”按農(nóng)業(yè)知識(shí)高維性、多樣性、多層次性特征分類聚類為各種知識(shí)塊靜態(tài)和動(dòng)態(tài)元數(shù)據(jù);通過(guò)智能算法推薦和社會(huì)網(wǎng)絡(luò)推薦為用戶發(fā)現(xiàn)個(gè)性化內(nèi)容;根據(jù)用戶的地理位置、用戶服務(wù)的評(píng)價(jià)以及云基礎(chǔ)服務(wù)提供商信息將預(yù)測(cè)值最高的服務(wù)推送給用戶實(shí)現(xiàn)與物理世界的互動(dòng)(如圖1)。

從以上分析可知,農(nóng)業(yè)云大數(shù)據(jù)自組織區(qū)域推送的關(guān)鍵技術(shù)有用戶興趣模型、推薦對(duì)象模型,推薦算法、數(shù)據(jù)挖掘四個(gè)部分,以下分別對(duì)這幾項(xiàng)技術(shù)進(jìn)行論述。

1.2.1 用戶興趣模型

用戶興趣建模是個(gè)性化服務(wù)技術(shù)的基礎(chǔ)和核心,包括數(shù)據(jù)收集、模型表示、模型學(xué)習(xí)與模型更新。用戶興趣建模的方法有很多,常用的有向量空間模型、神經(jīng)網(wǎng)絡(luò)、遺傳算法、用戶一項(xiàng)目評(píng)價(jià)矩陣、基于案例的表示、基于本體論的表示、基于加權(quán)關(guān)鍵詞的表示,基于社會(huì)網(wǎng)絡(luò)的表示等。幾乎每種表示形式都是以一種私有形式進(jìn)行知識(shí)表示,此外一些表示技術(shù)還依賴于模型學(xué)習(xí),如廣泛使用的基于向量空間模型的表示與TF-IDF學(xué)習(xí)技術(shù)聯(lián)系在一起。表示形式的私有性和對(duì)學(xué)習(xí)技術(shù)的依賴性阻礙了用戶模型在系統(tǒng)間的共享,這種共享對(duì)于減少用戶建模工作量,提高推薦算法啟動(dòng)效率具有重要意義。因此開發(fā)獨(dú)立于模型學(xué)習(xí)技術(shù)的通用用戶模型表示技術(shù)是目前研究中熱點(diǎn),基于語(yǔ)義網(wǎng)和社交網(wǎng)絡(luò)的用戶模型在這方面表現(xiàn)了優(yōu)勢(shì)。

用戶的興趣或需求會(huì)隨時(shí)間、情景發(fā)生變化,結(jié)合長(zhǎng)期和短期興趣及興趣的變化用戶興趣建模的重點(diǎn),目前的更新機(jī)制很難及時(shí)跟蹤用戶興趣的變化,有更好的學(xué)習(xí)效率和動(dòng)態(tài)變化適應(yīng)能力的建模是未來(lái)的重要研究方向,國(guó)內(nèi)外大量的文獻(xiàn)對(duì)此展開了研究,遺忘函數(shù)、時(shí)間窗、用戶興趣的漂移特性等被提出。

在湖南農(nóng)業(yè)云中,基于呼叫中心、互聯(lián)網(wǎng),手機(jī)報(bào)、手機(jī)短信,電視廣播等用戶在多應(yīng)用系統(tǒng)中形成的興趣偏好和社交網(wǎng)絡(luò)特征,提出“農(nóng)業(yè)用戶興趣社交云”建模思路:以圖論模型表示用戶“興趣圖”數(shù)據(jù)和“社交圖”數(shù)據(jù),根據(jù)經(jīng)典的局域世界演化理論,綜合考慮實(shí)際情況中用戶之間的多重關(guān)系和關(guān)系的強(qiáng)弱程度,以用戶之間相似度為節(jié)點(diǎn)連接概率因素,生成動(dòng)態(tài)多維網(wǎng)絡(luò),進(jìn)行用戶數(shù)據(jù)的挖掘和更新;結(jié)合農(nóng)業(yè)本體,在多維社交網(wǎng)絡(luò)的基礎(chǔ)上,將基于農(nóng)業(yè)本體的區(qū)域用戶興趣融合在云計(jì)算平臺(tái)上進(jìn)行處理。

1.2.2 推薦對(duì)象模型

推薦本質(zhì)上是將推薦對(duì)象的特征與用戶的興趣偏好進(jìn)行推薦計(jì)算,所以推薦對(duì)象的描述和用戶的描述密切相關(guān)。推薦系統(tǒng)應(yīng)用不同領(lǐng)域,它推薦的對(duì)象也就各不相同,目前,湖南農(nóng)業(yè)云主要是文本性數(shù)據(jù);不同的對(duì)象,特征也不相同,目前沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)來(lái)進(jìn)行統(tǒng)一描述,主要有基于內(nèi)容、分類、聚類的方法。

基于內(nèi)容的方法是從對(duì)象本身抽取信息表示對(duì)象,常見的是向量空間模型,使用最廣泛的是加權(quán)關(guān)鍵詞矢量方法進(jìn)行特征選取,使用TFIDF計(jì)算每個(gè)特征的權(quán)值。向量空間模型對(duì)模型中的特征詞進(jìn)行權(quán)重估計(jì)(TF-IDF)過(guò)程中不考慮特征詞之間的相關(guān)性,直接用特征詞作為維度構(gòu)建文檔向量,降低了文檔向量對(duì)文檔概念表達(dá)的準(zhǔn)確性以及對(duì)不同類型文檔的區(qū)分能力。

基于分類的方法是把推薦對(duì)象放入不同類別,把同類文檔推薦給對(duì)該類文檔感興趣的用戶。主要有兩種,一種是基于知識(shí)工程的方法,使專家的類別知識(shí)直接編碼為分類規(guī)則,正確率和召回率高,但工作量大;近期研究最多的是另一種一機(jī)器學(xué)習(xí),根據(jù)訓(xùn)練樣本集建立分類器,方法有很多,常見的有概率分類、貝葉斯回歸分析、決策樹分類器、決策規(guī)則分類器、Rocchio分類器、神經(jīng)網(wǎng)絡(luò)分類器、支持向量機(jī)(SVM)、分類器融合、Boosting分類器、k最近鄰方法(KNN)等。

研究文本聚類的最初目的是為了提高信息檢索的查全率和查準(zhǔn)率,近年來(lái),文本聚類用于自動(dòng)產(chǎn)生文本的多層次的類,并利用這些新生成的類對(duì)新文本進(jìn)行效率較好的歸類,已經(jīng)提出了大量的文本聚類算法。傳統(tǒng)的聚類算法在處理高維和海量文本時(shí)效率不很理想。針對(duì)這樣的問題,將聚類分析與計(jì)算智能理論,并行計(jì)算、云計(jì)算等相結(jié)合,設(shè)計(jì)出高效的并行聚類算法,己經(jīng)成為一個(gè)比較流行的研究思路。

在湖南農(nóng)業(yè)知識(shí)云數(shù)據(jù)模型中,將能更好反映特征詞相關(guān)性的超圖模型引入,將文檔中提取的特征項(xiàng)表示為圖中節(jié)點(diǎn),特征詞條之間的關(guān)系構(gòu)成圖中邊,用邊上權(quán)值表示相關(guān)聯(lián)特征項(xiàng)之間共現(xiàn)程度。通過(guò)對(duì)文本圖模型K最近鄰劃分實(shí)現(xiàn)降維降噪的粗粒度數(shù)據(jù)切片;對(duì)切片后數(shù)據(jù)反映用戶興趣如地域、時(shí)間、訴求等多維度特征的智能聚類,實(shí)現(xiàn)細(xì)粒度的聚合與分割。

“農(nóng)業(yè)知識(shí)聚合云”模型算法建立在基于MapReduce處理的大規(guī)模圖上,得到各種知識(shí)塊靜態(tài)和動(dòng)態(tài)元數(shù)據(jù)。

1.2.3 推薦算法

推薦算法是整個(gè)推薦系統(tǒng)中核心部分,大量的論文和著作都關(guān)注了這個(gè)方面。目前,基本包括以下幾種:基于內(nèi)容過(guò)濾推薦、協(xié)同過(guò)濾推薦、基于關(guān)聯(lián)推薦、基于知識(shí)推薦、基于效用推薦、基于網(wǎng)絡(luò)結(jié)構(gòu)推薦、基于聚類推薦、基于社會(huì)網(wǎng)絡(luò)分析推薦、混合型推薦等。通過(guò)對(duì)眾多推薦算法進(jìn)行比較分析,各種算法都有優(yōu)缺點(diǎn)(如表1):

各種推薦方法都有各自的優(yōu)缺點(diǎn),在實(shí)際問題中采用多種策略進(jìn)行混合推薦,主要有兩種混合思路:推薦結(jié)果混合和推薦算法混合。目前大部分的推薦算法都是混合推薦算法,主要還是以協(xié)同理論為核心,再配合其他算法的優(yōu)點(diǎn)或交叉學(xué)科的理論來(lái)改善推薦的質(zhì)量。另外基于社會(huì)網(wǎng)絡(luò)個(gè)性化推薦算法研究是一個(gè)趨勢(shì),基于社會(huì)網(wǎng)絡(luò)的推薦是協(xié)同過(guò)濾的延伸,通過(guò)考察結(jié)點(diǎn)之間(用戶和用戶之間或產(chǎn)品之間)的相關(guān)性和結(jié)點(diǎn)之間的信任度可以獲得比一般協(xié)同推薦更高推薦效果,如文獻(xiàn)提出將社會(huì)網(wǎng)絡(luò)關(guān)系結(jié)合到推薦算法中。縱觀國(guó)內(nèi)外在推薦算法上的研究,主要集中在基于用戶顯性評(píng)分?jǐn)?shù)據(jù)的協(xié)同過(guò)濾算法上,對(duì)基于非顯性評(píng)分行為數(shù)據(jù)場(chǎng)景下的研究卻顯得有點(diǎn)不足。目前在擴(kuò)展性問題上學(xué)術(shù)研究不是很具有針對(duì)性,主要集中在通過(guò)各種交叉學(xué)科中的方法來(lái)對(duì)用戶進(jìn)行聚類或?qū)π袨閿?shù)據(jù)進(jìn)行降維、壓縮等縮短推薦的項(xiàng)目集或減少計(jì)算量,從而提升算法的性能;有關(guān)基于云平臺(tái)上的推薦算法研究目前主要集中于協(xié)同過(guò)濾算法MapReduce化。而實(shí)際應(yīng)用中,己出現(xiàn)利用分布式集群解決算法擴(kuò)展性方法,如Google News的推薦算法就是部署在分布式環(huán)境下,從而滿足海量數(shù)據(jù)下的推薦服務(wù)。

根據(jù)農(nóng)業(yè)云大數(shù)據(jù)自組織區(qū)域推送實(shí)際情況將推薦結(jié)果和推薦算法混合,提出“三層推薦”策略:在豐富的知識(shí)塊云元數(shù)據(jù)基礎(chǔ)上,將知識(shí)塊屬性和用戶興趣行為基于頻繁模式的知識(shí)關(guān)聯(lián)撮合推薦;通過(guò)復(fù)雜網(wǎng)絡(luò)聚類算法識(shí)別一個(gè)用戶多個(gè)社區(qū)興趣,融合“興趣圖”和“社交圖”協(xié)同過(guò)濾推薦,突破算法推薦的局限性,讓用戶信任的朋友圈子為其發(fā)現(xiàn)和推薦內(nèi)容,取得社交推薦的時(shí)效性和算法推薦的長(zhǎng)尾性之間的互補(bǔ),從而針對(duì)每個(gè)社區(qū)成員提供精準(zhǔn)個(gè)性化推薦;根據(jù)基礎(chǔ)設(shè)施服務(wù)供應(yīng)商、用戶所在的地理位置以及用戶對(duì)服務(wù)可用性評(píng)價(jià)值的相似性等,將大量用戶云終端聚類為一定數(shù)量的社區(qū),提高云端推送服務(wù)的有效性,最終形成通過(guò)大眾參與,支持云間變換,集電信網(wǎng)、廣播電視網(wǎng)、互聯(lián)網(wǎng)合一的自組織區(qū)域推送,較有效地處理一般推薦算法中存在的稀疏性、冷啟動(dòng)以及大規(guī)模實(shí)時(shí)計(jì)算的問題。

1.2.4 云計(jì)算下個(gè)性化數(shù)據(jù)挖掘

數(shù)據(jù)挖掘采用了多種領(lǐng)域中的思想,包括來(lái)自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)、假設(shè)檢驗(yàn)以及人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。隨著數(shù)據(jù)挖掘的不斷發(fā)展,也采用了包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化、信息檢索、云計(jì)算、并行計(jì)算等技術(shù)。與傳統(tǒng)的數(shù)據(jù)挖掘相比,云計(jì)算下的個(gè)性化數(shù)據(jù)挖掘的目標(biāo),就是通過(guò)云計(jì)算中心,向用戶提供針對(duì)其即時(shí)演化需求的數(shù)據(jù)挖掘SaaS(Software as aService,軟件即服務(wù))服務(wù),其基礎(chǔ)問題主要為:對(duì)于用戶不同的數(shù)據(jù)挖掘需求以及針對(duì)用戶特點(diǎn)進(jìn)行個(gè)性推薦的建模和表征;數(shù)據(jù)挖掘算法適應(yīng)云計(jì)算的并行分布式化;使數(shù)據(jù)挖掘的結(jié)果和算法能夠支持云間變換并形成一種面向用戶、即時(shí)組合的、變粒度的云服務(wù),其中數(shù)據(jù)挖掘的云服務(wù)化是研究的難點(diǎn)。

(1)云計(jì)算下個(gè)性推薦的建模和表征

云下的個(gè)性推薦建模和表征與傳統(tǒng)上個(gè)性化推薦明顯的不同在于海量異構(gòu)大數(shù)據(jù)和用戶間群體涌現(xiàn)的社交網(wǎng)絡(luò),它們本質(zhì)上形成了多個(gè)頂點(diǎn)的大規(guī)模圖。云計(jì)算可以為大規(guī)模個(gè)性化提供技術(shù)支撐,云服務(wù)本身也有大規(guī)模個(gè)性化定制應(yīng)用需求,目前研究?jī)烧呓Y(jié)合的文獻(xiàn)還很少,張澤華從計(jì)算資源的角度基于復(fù)雜系統(tǒng)理論對(duì)云計(jì)算聯(lián)盟體系結(jié)構(gòu)進(jìn)行建模,并基于蟻群優(yōu)化算法和復(fù)雜系統(tǒng)理論進(jìn)行了負(fù)載均衡研究;郭昱就有效處理客戶需求信息該如何選擇與分布云計(jì)算平臺(tái)中的關(guān)鍵節(jié)點(diǎn)問題,提出了基于云計(jì)算的大規(guī)模定制客戶需求模型。趙東杰對(duì)復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)挖掘與群體智能有效結(jié)合進(jìn)行了探索研究。農(nóng)業(yè)云大數(shù)據(jù)自組織推送通過(guò)“農(nóng)業(yè)知識(shí)聚合云”分解的靜態(tài)、動(dòng)態(tài)知識(shí)元數(shù)據(jù)和“農(nóng)業(yè)用戶興趣社交云”形成的興趣圖、社交圖基于用戶行為和知識(shí)元數(shù)據(jù)的關(guān)聯(lián)撮合,通過(guò)人工智能和社交圈子幫助用戶發(fā)現(xiàn)內(nèi)容,實(shí)現(xiàn)搜索和推薦的無(wú)縫結(jié)合,為智能個(gè)性化推薦實(shí)現(xiàn)“內(nèi)容找人”愿景。

(2)算法并行分布式與高性能計(jì)算

對(duì)于大規(guī)模數(shù)據(jù)的處理,典型系統(tǒng)結(jié)構(gòu)大致分為三類:基于MapReduce模型的分布式并行處理系統(tǒng)、基于BSP模型的分布式并行處理系統(tǒng)和分布式圖數(shù)據(jù)庫(kù)系統(tǒng)。數(shù)據(jù)挖掘算法現(xiàn)在的發(fā)展趨勢(shì)是基于云計(jì)算的并行數(shù)據(jù)挖掘,它的同一個(gè)算法可以分布在多個(gè)節(jié)點(diǎn)上,多個(gè)算法之間是并行的,多個(gè)資源實(shí)行按需分配,而且分布式計(jì)算模型采用云計(jì)算模式,數(shù)據(jù)用DFS或者HBASE,編程模式采用MapReduce這種方式。Bhaduri等整理了一個(gè)十分詳盡的并行數(shù)據(jù)挖掘算法文獻(xiàn)目錄,包含了關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類、流數(shù)據(jù)挖掘四大類分布式數(shù)據(jù)挖掘算法,同時(shí)還包括分布式系統(tǒng)、隱私保護(hù)等相關(guān)的研究工作。

2 基于云計(jì)算推薦系統(tǒng)研究的重點(diǎn)、難點(diǎn)與熱點(diǎn)

2.1 云環(huán)境下用戶偏好獲取安全與可信問題

推薦系統(tǒng)中,用戶數(shù)據(jù)集的數(shù)量和質(zhì)量問題,影響用戶模型的精確度、可用性,導(dǎo)致問題的根本原因在于用戶對(duì)隱私和安全的考慮。而云環(huán)境下,數(shù)據(jù)的安全與隱私是用戶非常關(guān)心的問題。既能得到準(zhǔn)確用戶信息而提高推薦系統(tǒng)性能,又能有效保護(hù)用戶信息同時(shí)檢測(cè)并能預(yù)防推薦攻擊(一些不法的用戶為了提高或降低某些對(duì)象的推薦概率,惡意捏造用戶評(píng)分?jǐn)?shù)據(jù)而達(dá)到目的)將是未來(lái)推薦系統(tǒng)的一個(gè)重要研究方向。

2.2 模型過(guò)擬合問題

過(guò)擬合現(xiàn)象是指系統(tǒng)推薦給用戶的對(duì)象與用戶剛剛看過(guò)的不是太相似或者太不相關(guān)。過(guò)擬合(過(guò)學(xué)習(xí))的問題本質(zhì)上來(lái)自于數(shù)據(jù)的不完備性,這在實(shí)際應(yīng)用中是無(wú)法完全避免的。在于興趣偏好獲取方式或隱私等原因使用戶沒有對(duì)足夠多類別的對(duì)象進(jìn)行評(píng)價(jià)。目前解決的主要方法是引入隨機(jī)性,使推薦算法收斂到全局最優(yōu)或者逼近全局最優(yōu),關(guān)于既要保證推薦的多樣性,又不能與用戶看過(guò)的對(duì)象重復(fù)或毫不相關(guān)這一問題的研究是推薦系統(tǒng)研究的一個(gè)難點(diǎn)和重點(diǎn)。

2.3 稀疏性與冷啟動(dòng)問題

稀疏性和冷啟動(dòng)問題困擾推薦系統(tǒng)很長(zhǎng)時(shí)間了,前者的解決辦法主要過(guò)濾和降維。目前針對(duì)冷啟動(dòng)問題提出了一些解決方法,主要分為兩大方面,一是直接利用傳統(tǒng)協(xié)同過(guò)濾的評(píng)分?jǐn)?shù)據(jù)結(jié)合特定的方法進(jìn)行解決,二是新用戶或新項(xiàng)目的內(nèi)容屬性信息與傳統(tǒng)的協(xié)同過(guò)濾評(píng)分?jǐn)?shù)據(jù)相結(jié)合的方法進(jìn)行改善冷啟動(dòng)問題。稀疏性與冷啟動(dòng)問題一直是推薦系統(tǒng)研究的一個(gè)難點(diǎn)和重點(diǎn)。

2.4 數(shù)據(jù)挖掘的結(jié)果和算法智能服務(wù)化

將數(shù)據(jù)挖掘算法融入針對(duì)海量用戶的使用記錄和計(jì)算資源間協(xié)作進(jìn)行優(yōu)化組合,利用這些特性通過(guò)大眾參與的交互作用,提高云間服務(wù)的智能性、有效性將是大數(shù)據(jù)時(shí)代推薦系統(tǒng)研究的一個(gè)制高點(diǎn)。將數(shù)據(jù)挖掘任務(wù)及其實(shí)現(xiàn)算法服務(wù)化,通過(guò)SaaS方式向云計(jì)算中心索取所需的相應(yīng)的數(shù)據(jù)挖掘,這可能是目前突破數(shù)據(jù)挖掘?qū)S密浖褂瞄T檻過(guò)高、普通大眾難以觸及、企業(yè)用戶使用成本太大、挖掘算法和結(jié)果難以實(shí)時(shí)得到評(píng)價(jià)和相應(yīng)修改等問題的最有希望的解決方案之一,也是數(shù)據(jù)挖掘走向互聯(lián)網(wǎng)大眾、走向?qū)嵱没闹匾囊徊健?/p>

2.5 大數(shù)據(jù)處理與增量計(jì)算問題

目前對(duì)大數(shù)據(jù)的研究仍處于一個(gè)非常初步的階段,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)給傳統(tǒng)的數(shù)據(jù)分析帶來(lái)巨大挑戰(zhàn),尤其算法如何快速高效地處理推薦系統(tǒng)海量和稀疏的數(shù)據(jù)成為迫在眉睫的問題。當(dāng)產(chǎn)生新的數(shù)據(jù)時(shí),算法的結(jié)果不需要在整個(gè)數(shù)據(jù)集上重新進(jìn)行計(jì)算,而只需考慮增量部分,對(duì)原有的結(jié)果進(jìn)行微調(diào),快速得到準(zhǔn)確的新結(jié)果,是增量計(jì)算的理想狀態(tài)。但一般而言,隨著信息量的增多,算法的誤差會(huì)累積變大,最終每過(guò)一段時(shí)間還是需要利用全局?jǐn)?shù)據(jù)重新進(jìn)行計(jì)算。一個(gè)特別困難的挑戰(zhàn)是如何設(shè)計(jì)一種能夠保證其誤差不會(huì)累積的算法,也就是說(shuō)其結(jié)果與利用全部數(shù)據(jù)重新計(jì)算的結(jié)果之間的差異不會(huì)單調(diào)上升,要達(dá)到這種程度,還有很長(zhǎng)的路要走。

結(jié)束語(yǔ):

隨著新一代信息技術(shù)的快速發(fā)展和信息內(nèi)容的日益增長(zhǎng),搭載在云計(jì)算平臺(tái)的自組織區(qū)域推送具有它天然的優(yōu)勢(shì):云的海量存儲(chǔ)使得推薦系統(tǒng)能有效獲取訓(xùn)練數(shù)據(jù);云的分布式計(jì)算能力提供了較高的響應(yīng)能力;海量用戶的使用記錄和計(jì)算資源問大眾參與的交互涌現(xiàn),最終形成自組織優(yōu)化組合的智能個(gè)性化云推送。因此,農(nóng)業(yè)云自組織區(qū)域推送具有重要的研究意義和廣闊的應(yīng)用前景,對(duì)云環(huán)境下其他領(lǐng)域的個(gè)性化推送應(yīng)用具有借鑒意義,但目前存在大量問題需要進(jìn)行深入細(xì)致的研究。

參考文獻(xiàn)

[1]孟祥武,胡勛,王立才,張玉潔,移動(dòng)推薦系統(tǒng)及其應(yīng)用[J],軟件學(xué)報(bào),2013,24(1):91-108

[2]楊濤,基于本體的農(nóng)業(yè)領(lǐng)域知識(shí)服務(wù)若干關(guān)鍵技術(shù)研究[D],上海:復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院博士論文,2011,1-50

[3]楊曉蓉,分布式農(nóng)業(yè)科技信息共享關(guān)鍵技術(shù)研究與應(yīng)用[D],北京:中國(guó)農(nóng)業(yè)科學(xué)院博士學(xué)位論文,2011,3-35

[4]趙春江,農(nóng)業(yè)智能系統(tǒng)[M],北京:科學(xué)出版社,2009,1-210,

[5]何清,物聯(lián)網(wǎng)與數(shù)據(jù)挖掘云服務(wù)[J],智能系統(tǒng)學(xué)報(bào),2012,7(3):1-5,

[6]黃衛(wèi)東,于瑞強(qiáng),共享學(xué)習(xí)模式下知識(shí)服務(wù)云平臺(tái)的構(gòu)建研究[J],電信科學(xué),2011,12:6-11

[7]丁靜,楊善林,羅賀,丁帥,云計(jì)算環(huán)境下的數(shù)據(jù)挖掘服務(wù)模式[J],計(jì)算機(jī)科學(xué),2012,39(6):217-219,237

[8]鄧仲華,錢劍紅,陸穎雋,國(guó)內(nèi)圖書情報(bào)領(lǐng)域云計(jì)算研究分析[J],信息資源管理學(xué)報(bào),2012,2:10-16

[9]胡安瑞,張霖,陶飛,羅永亮,基于知識(shí)的云制造資源服務(wù)管理[J]同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,40(7):1093-1101

[10]程功勛,劉麗蘭,林智奇,俞濤,面向用戶偏好的智能云服務(wù)平臺(tái)研究[J],中國(guó)機(jī)械工程,2012,23(11):1318-1323,1336

[11]劉波,方逵,沈岳,可重構(gòu)的農(nóng)業(yè)知識(shí)服務(wù)模式研究[J]農(nóng)機(jī)化研究,2011,36(11):66-70

[12]趙星,廖桂平,史曉慧,陳誠(chéng),李文圃,物聯(lián)網(wǎng)與云計(jì)算環(huán)境下的農(nóng)業(yè)信息服務(wù)模式構(gòu)建[J],農(nóng)機(jī)化研究,2012,4:142-147

[13]郭永田,中國(guó)農(nóng)業(yè)農(nóng)村信息化發(fā)展成效與展望[J],電子政務(wù),2012,02-03:99-106

[14]李道亮,中國(guó)農(nóng)業(yè)農(nóng)村信息化發(fā)展報(bào)告(2011)[M],北京:電子工業(yè)出版,2012,87-150

[15]錢平,鄭業(yè)魯,農(nóng)業(yè)木體論研究與應(yīng)用[M],北京:中國(guó)農(nóng)業(yè)科學(xué)技術(shù)出版社,2006,1-100

[16]吳麗花,劉魯,個(gè)性化推薦系統(tǒng)用戶建模技術(shù)綜述[J],情報(bào)學(xué)報(bào),2006,25(2):55-62

[17]李珊,個(gè)性化服務(wù)中用戶興趣建模與更新研究[J],情報(bào)學(xué)報(bào),2010,29(1):67-71

[18]王國(guó)霞,劉賀平,個(gè)性化推薦系統(tǒng)綜述[J],計(jì)算機(jī)工程與應(yīng)用,2012,48(7):66-76

[19]王巧容,趙海燕,曹健,個(gè)性化服務(wù)中的用戶建模技術(shù)[J],小型微型計(jì)算機(jī)系統(tǒng),2011,32(1):39-46

軟件雜志歡迎推薦投稿:http:///

[20]張華清,動(dòng)態(tài)多維社會(huì)網(wǎng)絡(luò)中個(gè)性化推薦方法研究[D],濟(jì)南:山東師范大學(xué)碩士學(xué)位論文,2012,16-31

[21]丹,面向跨系統(tǒng)個(gè)性化服務(wù)的用戶建模方法研究[J]_情報(bào)雜志,2012,31(6):156-161

[22]鄧夏瑋,基于社交網(wǎng)絡(luò)的用戶行為研究[D],北京:北京交通大學(xué)碩士學(xué)位論文,2012,4-43

[23]馬堯,基于多維用戶特征建模的個(gè)性化社交搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D],廣州:華南理工大學(xué)碩士學(xué)位論文,2012,12-55

[24]陳恩紅,徐童,田繼雷,楊禹,移動(dòng)情景感知的個(gè)性化推薦技術(shù)[J],中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2013,9(3):19-24

[25]Jong Hwa Kima,b,,Hyun JoonLeeb,Extraction of user profile based on workflow and information flow[J],Expert Systems with Applications,2012,39(5):5478-5487

[26]南智敏,錢松榮,引入漂移特性的用戶興趣模型優(yōu)化研究[J],微型電腦應(yīng)用,2012,28(3):30-32

[27]郭新明,弋改珍,混合模型的用戶興趣漂移算法[J],智能系統(tǒng)學(xué)報(bào),2010,5(2):181-184

[28]程顯毅,朱倩,文本挖掘原理[M],北京:科學(xué)出版社,2010,9-45 [29]李濤,推薦系統(tǒng)中若干關(guān)鍵問題研究[D],南京:南京航空航天大學(xué)博士學(xué)位論文,2009,31-80

[30]姜倫,模糊聚類算法及其在中文文本聚類中的研究與實(shí)現(xiàn)[D],哈爾濱:哈爾濱理工大學(xué)碩士學(xué)位論文,2010,18-48

[31]馮汝偉,謝強(qiáng),丁秋林,基于文本聚類與分布式Lucene的知識(shí)檢索[J],計(jì)算機(jī)應(yīng)用,2013,33(1):186-188

[32]陶紅,周永梅,高尚,一種基于語(yǔ)義相似度的群智能文本聚類的新方法[J]計(jì)算機(jī)應(yīng)用研究,2012,29(2):482-532

[33]孟海東,劉小榮,基于聚類分析的圖模型文檔分類[J]計(jì)算機(jī)應(yīng)用與軟件,2012,29(1):117-174,229

[34]饒君,張仁波,東呈曉,吳斌,基于MapReduce的大規(guī)模圖挖掘并行計(jì)算模型[J],應(yīng)用科技,2012,39(3):56-60

[35]于戈,谷峪,鮑玉斌,王志剛,云計(jì)算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術(shù)[J],計(jì)算機(jī)學(xué)報(bào),2011,34(10):1753-1767

[36]呂善國(guó),吳效葵,曹義親,基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法[J]_實(shí)驗(yàn)室研究與探索,2012,31(7):278-280,368

[37]周佳,羅鐵堅(jiān),一種基于內(nèi)容關(guān)聯(lián)的學(xué)術(shù)資源協(xié)同推薦算法[J],中國(guó)科學(xué)院研究生院學(xué)報(bào),2013,30(1):117-123

[38]唐曉波,張昭,基于混合圖的在線社交網(wǎng)絡(luò)個(gè)性化推薦系統(tǒng)研究[J]情報(bào)理論與實(shí)踐,2013,36(2):91-95

[39]王立才,孟祥武,張玉潔,上下文感知推薦系統(tǒng)[J],軟件學(xué)報(bào),2012,23(1):1-20

[40]劉建國(guó),周濤,汪秉宏,個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J],自然科學(xué)通報(bào),2009,19(1):1-15

[41]許海玲,吳瀟,李曉東,閻保平,互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]軟件學(xué)報(bào),2009,20(2):350-362

[42]孫冬婷,何濤,張福海,推薦系統(tǒng)中的冷啟動(dòng)問題研究綜述[J],計(jì)算機(jī)與現(xiàn)代化,2012,5:59-63

[43]張亮,基于聚類技術(shù)的推薦算法研究[D],成都:電子科技大學(xué)碩士學(xué)位論文,2012,7-18

[44]Liu, F.,Lee, H.J. Use of social network information to enhance collaborative filterinperformance.Expert[J] Systems with Applications. 2010, 37(7):4772-4778.

[45]Jiang, J., Lu, J., Zhang, G., Long, G. Scaling- Up Item-Based CollaborativeFiltering Recommendation Algorithm Based on Hadoop[C].2011 IEEE World Congress onServices.IEEE[A]. 2011, 490-497.

[46]周源,基于云計(jì)算的推薦算法研究[D],成都:電子科技大學(xué)碩士學(xué)位論文,2012,26-64

[47]呂雪驥,基于云計(jì)算平臺(tái)的智能推薦系統(tǒng)研究[D],合肥:安徽大學(xué)碩士學(xué)位論文,2012,25-43

[48]劉晨,改進(jìn)的聚類挖掘算法對(duì)網(wǎng)絡(luò)自助出版“長(zhǎng)尾”文本的推薦應(yīng)用[D],上海:復(fù)旦大學(xué)碩士學(xué)位論文,2011,10-19

[49]陳桂生,張海粟,劉玉超,云計(jì)算下的個(gè)性化數(shù)據(jù)挖掘服務(wù)[EB/OL],[2011-2-28]中國(guó)人工智能學(xué)會(huì)通訊,http://www,/contents/50/119,html

[50]張澤華,云計(jì)算聯(lián)盟建模及實(shí)現(xiàn)的關(guān)鍵技術(shù)研究[D],昆明:云南大學(xué)博士學(xué)位論文,2012,26-114

[51]郭昱,吳清烈,基于云計(jì)算的大規(guī)模定制客戶需求響應(yīng)模型及其節(jié)點(diǎn)的選擇與分布[J],系統(tǒng)工程理論與實(shí)踐,2011,31(增刊2):1-6

[52]趙東杰,張海粟,韓言妮,楊海濤,何宇,基于網(wǎng)絡(luò)化數(shù)據(jù)挖掘的群體智能研究方法[C],Proceedings of 2010 The 3rdInternational Conference on Computational Intelligence andIndustrial Application(Volume 9).IEEE[A].2010,239-243.

[53]AnandRajaraman,Jeffrey David Ullman著,王斌譯,互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M],北京:人民郵電出版社,2012,1-253

[54]Bhaduri K, Das K, Liu Kun, et al. Distributed data mining bibliography[EB/OL]. [2011-01-03]. http:// cs. umbc. edu/~hillol/DDMBIB/

[55]楊健,汪海航,王劍,俞定國(guó),云計(jì)算安全問題研究綜述[J],小型微型計(jì)算機(jī)系統(tǒng),2012,33(3):472-479

篇10

關(guān)鍵詞:數(shù)據(jù)挖掘 客戶關(guān)系管理 企業(yè)發(fā)展

企業(yè)管理中客戶關(guān)系的管理必不可少,并且良好的管理有利于企業(yè)發(fā)展,有利于企業(yè)獲取更大的財(cái)富,有利于企業(yè)實(shí)現(xiàn)自己的價(jià)值,所以保障對(duì)企業(yè)客戶關(guān)系的管理。數(shù)據(jù)挖掘技術(shù)就是一個(gè)可以幫助企業(yè)對(duì)客戶關(guān)系進(jìn)行有效的管理的工具。

一、數(shù)據(jù)挖掘和客戶關(guān)系管理含義

數(shù)據(jù)挖掘技術(shù)(Data Mining可以簡(jiǎn)稱為DM),簡(jiǎn)單來(lái)說(shuō),就是一種把隱藏在大型數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)中所需要的有用信息提取出來(lái)的新技術(shù),這是一個(gè)對(duì)數(shù)據(jù)庫(kù)進(jìn)行研究的非常有價(jià)值的領(lǐng)域。數(shù)據(jù)挖掘技術(shù)可以幫助用戶從數(shù)據(jù)庫(kù)中準(zhǔn)確的提取出有用的商業(yè)信息,為用戶在進(jìn)行決策時(shí)提供重要的支持。

客戶關(guān)系管理(Customer Relationship Management可以簡(jiǎn)稱為CRM),也有人稱之為“顧客關(guān)系管理”,關(guān)于客戶關(guān)系管理的定義,目前有兩種說(shuō)法:一,最早的Gartner Group定義為一種商業(yè)策略,就是把客戶進(jìn)行分類,并依據(jù)分類情況來(lái)對(duì)企業(yè)的資源進(jìn)行有效的組織,進(jìn)而企業(yè)的業(yè)務(wù)流程實(shí)施以及經(jīng)營(yíng)活動(dòng)都要以客戶為核心來(lái)進(jìn)行,以此來(lái)提高企業(yè)的盈利能力以及客戶滿意度,取得最大利潤(rùn);二、是由CRMguru.com給出的定義,客戶關(guān)系管理就是一個(gè)在企業(yè)的營(yíng)銷、銷售以及服務(wù)的業(yè)務(wù)范圍內(nèi),把企業(yè)現(xiàn)有的客戶以及潛在客戶,還有業(yè)務(wù)伙伴多渠道進(jìn)行管理的過(guò)程,或者說(shuō)技術(shù)。

二、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用

隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,市場(chǎng)競(jìng)爭(zhēng)力也在逐步的增大,商家想要獲得最好的利益,就必須對(duì)市場(chǎng)的變化迅速的做出反應(yīng),能夠引起市場(chǎng)變化的重要因素就是客戶需求的變化,也就是說(shuō),企業(yè)必須集中注意力,觀察客戶需求的每一變化,并把這些資料收集在一起,作為企業(yè)發(fā)展的寶貴資源進(jìn)行管理。在企業(yè)管理客戶信息的過(guò)程中,就需要應(yīng)用到了數(shù)據(jù)挖掘技術(shù)。

數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用過(guò)程中,主要方法有:神經(jīng)網(wǎng)絡(luò)法、遺傳算法、決策樹法、粗糙決算法以及可視化技術(shù)、K—最近鄰技術(shù)等,每個(gè)公司的客戶關(guān)系不同、需求也不同,所以要用到的方法也不同。

數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于客戶關(guān)系管理中的這幾個(gè)方面:(1)挖掘新客戶,數(shù)據(jù)挖掘技術(shù)可以對(duì)現(xiàn)有的客戶信息和市場(chǎng)環(huán)境進(jìn)行統(tǒng)計(jì)總結(jié)以及歸納,準(zhǔn)確的確定潛在客戶以及市場(chǎng)目標(biāo)。因?yàn)閿?shù)據(jù)挖掘技術(shù)具有統(tǒng)計(jì)、聚類和關(guān)聯(lián)的作用,比如說(shuō),數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)了這樣一個(gè)信息“某客戶在購(gòu)買A商品之后,過(guò)了一段時(shí)間又購(gòu)買了B商品,最后還購(gòu)買了C商品”那么數(shù)據(jù)挖掘技術(shù)就會(huì)通過(guò)次序關(guān)聯(lián),把這個(gè)信息形成“A—B—C”的行為模式。(2)可以保持優(yōu)質(zhì)客戶?,F(xiàn)在社會(huì)競(jìng)爭(zhēng)相當(dāng)激烈,企業(yè)客戶更是企業(yè)發(fā)展的重要因素,優(yōu)質(zhì)客戶對(duì)每個(gè)企業(yè)來(lái)說(shuō)就更加的重要。數(shù)據(jù)挖掘技術(shù)可以對(duì)數(shù)據(jù)庫(kù)中的流失客戶信息進(jìn)行分析,并且對(duì)流失客戶的特征進(jìn)行準(zhǔn)確的描述,然后利用關(guān)聯(lián)、近鄰的方式對(duì)整個(gè)數(shù)據(jù)庫(kù)中的消費(fèi)客戶信息進(jìn)行分析,分析出容易流失的客戶,隨后就需要采取相應(yīng)的措施來(lái)減少這些客戶的流失,尤其是那些可能流失的優(yōu)質(zhì)客戶,更要采取有力的措施來(lái)進(jìn)行挽留。(3)可以提升客戶價(jià)值。目前提升現(xiàn)有客戶的價(jià)值的方式有兩個(gè):一是提供特色服務(wù)或者產(chǎn)品;二是銷售新產(chǎn)品或者服務(wù)。想要準(zhǔn)確的提升客戶價(jià)值,就需要數(shù)據(jù)挖掘技術(shù)的幫助了,他可以把之前的客戶信息研究分析,并依據(jù)新產(chǎn)品或者服務(wù)的特征,發(fā)現(xiàn)和客戶的已購(gòu)買產(chǎn)品之間的關(guān)聯(lián),因而準(zhǔn)確的找到具有最大購(gòu)買趨勢(shì)的客戶。

三、加強(qiáng)客戶關(guān)系管理中數(shù)據(jù)挖掘的意義

應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)客戶關(guān)系進(jìn)行管理,可以有效的提高企業(yè)的核心競(jìng)爭(zhēng)力,現(xiàn)代社會(huì)的激烈競(jìng)爭(zhēng),也就是對(duì)客戶的競(jìng)爭(zhēng),數(shù)據(jù)挖掘技術(shù)對(duì)企業(yè)的客戶關(guān)系進(jìn)行詳細(xì)的分析,并為企業(yè)提供有價(jià)值的商業(yè)信息,為企業(yè)的重大決策提供了重要的參考依據(jù),進(jìn)而有力的提高了企業(yè)的核心競(jìng)爭(zhēng)力;可以有力的增強(qiáng)企業(yè)的執(zhí)行力,利用信息技術(shù)對(duì)客戶關(guān)系進(jìn)行管理,降低成本,并簡(jiǎn)化執(zhí)行任務(wù),有效的實(shí)現(xiàn)了資源共享,大力的提高了企業(yè)的自動(dòng)化水平,企業(yè)職工的執(zhí)行能力也進(jìn)一步得到了提高,也就是增強(qiáng)了企業(yè)的執(zhí)行力[3];可以為企業(yè)的下一步戰(zhàn)略發(fā)展提供幫助,數(shù)據(jù)挖掘技術(shù)對(duì)現(xiàn)今的市場(chǎng)環(huán)境進(jìn)行分析,可以預(yù)測(cè)到每個(gè)業(yè)務(wù)的發(fā)展?fàn)顟B(tài),以及每個(gè)業(yè)務(wù)與發(fā)生過(guò)的商業(yè)行為之間的關(guān)系,有了這些信息,可以準(zhǔn)確的制定企業(yè)未來(lái)的發(fā)展戰(zhàn)略,并且可以制定與市場(chǎng)環(huán)境相適應(yīng)的營(yíng)銷策略。

綜上所述,目前數(shù)據(jù)挖掘技術(shù)是企業(yè)進(jìn)行客戶關(guān)系管理的最有效的工具,準(zhǔn)確的掌握了客戶信息,就是準(zhǔn)確的把握了市場(chǎng)需求,可以為企業(yè)制定完全適應(yīng)于市場(chǎng)的發(fā)展方向。數(shù)據(jù)挖掘技術(shù)的關(guān)鍵作用就是找出潛在客戶,保留忠誠(chéng)客戶,并利用企業(yè)有限的資源,對(duì)這些客戶提供最好的服務(wù),促進(jìn)企業(yè)的不斷發(fā)展。

參考文獻(xiàn):

[1]張榮耀.基于數(shù)據(jù)挖掘的客戶關(guān)系管理研究[D].武漢理工大學(xué), 碩士學(xué)位論文,2004,11