數(shù)據(jù)挖掘技術(shù)論文范文
時間:2023-03-18 16:11:50
導語:如何才能寫好一篇數(shù)據(jù)挖掘技術(shù)論文,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(DataMining)技術(shù)由此應運而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標準將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡建立在自學習的數(shù)學模型基礎(chǔ)之上,能夠?qū)Υ罅繌碗s的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡既可以表現(xiàn)為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優(yōu)點。
6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應性最高的假設(shè)的后代替代群體的某個部分,來更新當前群體的一組假設(shè),來實現(xiàn)各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機。支持向量機(SVM)是在統(tǒng)計學習理論的基礎(chǔ)上發(fā)展出來的一種新的機器學習方法。它基于結(jié)構(gòu)風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現(xiàn)已成為訓練多層感知器、RBF神經(jīng)網(wǎng)絡和多項式神經(jīng)元網(wǎng)絡的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡在內(nèi)的其他算法所不能及的。支持向量機可以應用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結(jié)束語
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應用,并取得更加顯著的效果。
篇2
(1)確定業(yè)務對象:做好業(yè)務對象的明確是數(shù)據(jù)域挖掘的首要步驟,挖掘的最后結(jié)構(gòu)是不可預測的,但是探索的問題必須是有預見的,明確業(yè)務對象可以避免數(shù)據(jù)挖掘的盲目性,從而大大提高成功率。
(2)數(shù)據(jù)準備:首先,對于業(yè)務目標相關(guān)的內(nèi)部和外部數(shù)據(jù)信息進行查找,從中找出可以用于數(shù)據(jù)挖掘的信息;其次,要對數(shù)據(jù)信息的內(nèi)容進行全面細致分析,確定需要進行挖掘操作的類型;然后,結(jié)合相應的挖掘算法,將數(shù)據(jù)轉(zhuǎn)化稱為相應的分析模型,以保證數(shù)據(jù)挖掘的順利進行。
(3)數(shù)據(jù)挖掘:在對數(shù)據(jù)進行轉(zhuǎn)化后,就可以結(jié)合相應的挖掘算法,自動完成相應的數(shù)據(jù)分析工作。
(4)結(jié)果分析:對得到的數(shù)據(jù)分析結(jié)果進行評價,結(jié)合數(shù)據(jù)挖掘操作明確分析方法,一般情況下,會用到可視化技術(shù)。
(5)知識同化:對分析得到的數(shù)據(jù)信息進行整理,統(tǒng)一到業(yè)務信息系統(tǒng)的組成結(jié)構(gòu)中。這個步驟不一定能夠一次完成,而且其中部分步驟可能需要重復進行。
二、數(shù)據(jù)挖掘技術(shù)在水利工程管理中的實施要點
水利工程在經(jīng)濟和社會發(fā)展中是非常重要的基礎(chǔ)設(shè)施,做好水利工程管理工作,確保其功能的有效發(fā)揮,是相關(guān)管理人員需要重點考慮的問題。最近幾年,隨著社會經(jīng)濟的飛速發(fā)展,水利工程項目的數(shù)量和規(guī)模不斷擴大,產(chǎn)生的水利科學數(shù)據(jù)也在不斷增加,這些數(shù)據(jù)雖然繁瑣,但是在許多科研生產(chǎn)活動和日常生活中都是不可或缺的。例如,在對洪澇、干旱的預防以及對生態(tài)環(huán)境問題的處理方面,獲取完整的水利科學數(shù)據(jù)是首要任務。那么,針對日益繁雜的海量水利科學數(shù)據(jù),如何對有用的信息知識進行提取呢?數(shù)據(jù)挖掘技術(shù)的應用有效的解決了這個問題,可以從海量的數(shù)據(jù)信息中,挖掘出潛在的、有利用價值的知識,為相關(guān)決策提供必要的支持。
1.強化數(shù)據(jù)庫建設(shè)
要想對各類數(shù)據(jù)進行科學有效的收集和整理,就必須建立合理完善的數(shù)據(jù)庫。對于水利工程而言,應該建立分類數(shù)據(jù)庫,如水文、河道河情、水量調(diào)度、防洪、汛情等,確保數(shù)據(jù)的合理性、全面性和準確性,選擇合適的方法,對有用數(shù)據(jù)進行挖掘。
2.合理選擇數(shù)據(jù)挖掘算法
(1)關(guān)聯(lián)規(guī)則挖掘算法:關(guān)聯(lián)規(guī)則挖掘問題最早提出于1993年,在當前數(shù)據(jù)挖掘領(lǐng)域,從事務數(shù)據(jù)庫中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,已經(jīng)成為一個極其重要的研究課題。關(guān)聯(lián)規(guī)則挖掘的主要目的,是尋找和挖掘隱藏在各種數(shù)據(jù)之間的相互關(guān)系,通過量化的數(shù)據(jù),來描述事務A的出現(xiàn)對于事務B出現(xiàn)可能產(chǎn)生的影響,關(guān)聯(lián)規(guī)則挖掘就是給定一組Item以及相應的記錄組合,通過對記錄組合的分析,推導出Item間存在的相關(guān)性。當前對于關(guān)聯(lián)規(guī)則的描述,一般是利用支持度和置信度,支出度是指產(chǎn)品集A、B同時出現(xiàn)的概率,置信度則是在事務集A出現(xiàn)的前提下,B出現(xiàn)的概率。通過相應的關(guān)聯(lián)分析,可以得出事務A、B同時出現(xiàn)的簡單規(guī)則,以及每一條規(guī)則的支持度和置信度,支持度高則表明規(guī)則被經(jīng)常使用,置信度高則表明規(guī)則相對可靠,通過關(guān)聯(lián)分析,可以明確事務A、B的關(guān)聯(lián)程度,決定兩種事務同時出現(xiàn)的情況。
(2)自頂而下頻繁項挖掘算法:對于長頻繁項,如果采用關(guān)聯(lián)規(guī)則挖掘算法,需要進行大量的計算分析,不僅耗時耗力,而且影響計算的精準度,這時,就可以采用自頂而下頻繁項挖掘算法,這種算法是一種相對優(yōu)秀的長頻繁項挖掘算法,利用了事務項目關(guān)聯(lián)信息表、項目約簡、關(guān)鍵項目以及投影數(shù)據(jù)庫等新概念與投影、約簡等新方法,在對候選集進行生成的過程中,應該對重復分支進行及時修剪,提升算法的實際效率,從而有效解決了長頻繁項的挖掘問題。結(jié)合計算機實驗以及算法分析,可以看出,這種方法是相對完善的,同時也是十分有效的。不過需要注意的是,當支持度較大、頻繁項相對較短時,利用關(guān)聯(lián)規(guī)則挖掘中典型的Apriori方法,可以起到更好的效果。
(3)頻繁項雙向挖掘算法:這種算法是一種融合了自頂向下以及自底向上的雙向挖掘算法,可以較好的解決長頻繁項以及段頻繁項的挖掘問題,主挖掘方向是利用自頂向下挖掘策略,但是結(jié)合自底向上方法生成的非頻繁項集,可以對候選集進行及時修剪,提升算法的實際效率。
三、結(jié)語
篇3
近年來,我國的部隊管理體系已經(jīng)逐漸向著自動化方向發(fā)展,部隊中各個部門都建立了一定的管理體系,也逐漸脫離了人工管理模式,實現(xiàn)信息現(xiàn)代化模式,很大程度提高了部隊工作的效率,但是由于外界因素與經(jīng)濟發(fā)展的多樣化以及人們的思維模式也在不斷改變,從而出現(xiàn)了一些新問題,使得部隊管理體系存在著一定問題:第一、關(guān)聯(lián)性小、系統(tǒng)比較獨立?,F(xiàn)階段,部隊采購食品系統(tǒng)的作用以及目的比較簡單,思維面也比較窄,也就是說按照清單進行食品采購時,不能充分考慮到采購人員的健康、效率等問題,不能達到最優(yōu)化采購方式,因此就變得比較獨立;第二,數(shù)據(jù)功能簡單,可靠性不高?,F(xiàn)階段,部隊食品采購數(shù)據(jù)只是對采購的種類與過程進行簡單記錄,時間一久,就會被損壞或者丟失;第三,數(shù)據(jù)分散不集中?,F(xiàn)階段與部隊人員健康、起居飲食、訓練相關(guān)的數(shù)據(jù)分散在不同系統(tǒng)中,使得數(shù)據(jù)變得不一致、不完整,僅僅只能進行簡單查詢、匯總、統(tǒng)計等工作,不能對數(shù)據(jù)進行多角度分析、關(guān)聯(lián)等,不能為采購食品提供很好的政策支持。針對部隊采購存在的問題,可以利用數(shù)據(jù)倉庫以及數(shù)據(jù)挖掘技術(shù)建立多為數(shù)據(jù)庫,利用數(shù)據(jù)挖掘進技術(shù)對食品采購數(shù)據(jù)進行挖掘。依據(jù)現(xiàn)階段部隊的實際發(fā)展情況,建立一套新數(shù)據(jù)庫的成本代價比較高,因此,選用了目前社會上通用方法,對已經(jīng)存在的數(shù)據(jù)進行一定改革與拓展,合理優(yōu)化系統(tǒng)數(shù)據(jù),成為新的數(shù)據(jù)庫。并且選取對數(shù)據(jù)挖掘影響比較大的系統(tǒng)性分析,包括訓練系統(tǒng),食品采購系統(tǒng)、人員管理系統(tǒng)以及醫(yī)療衛(wèi)生系統(tǒng)。針對食品采購采購系統(tǒng)建立數(shù)據(jù)模型。
二、在部隊食品采購系統(tǒng)中的應用以及其價值評價
在部隊食品采購系統(tǒng)實際應用工程中,其實可以運用MicrosoftSQLServerAnalysisServices來對數(shù)據(jù)進行分析,并且在數(shù)據(jù)挖掘過程中對多維數(shù)據(jù)進行描述與查找起到一定作用。因為多維數(shù)據(jù)比較復雜,增長的也比較快,因此,進行手動查找是很困難的,數(shù)據(jù)挖掘技術(shù)提供的計算模式可以很好的對數(shù)據(jù)進行分析與查找。在建設(shè)部隊食品采購倉庫數(shù)據(jù)的時候,數(shù)據(jù)內(nèi)容主要包括了人員的健康、兵員的飲食以及訓練等,進行數(shù)據(jù)挖掘主要包括以下內(nèi)容:第一,把每個主題信息數(shù)據(jù)進行收集、匯總、分析等,對人員情況、健康、飲食、訓練等進行合理分析;第二,多維分析數(shù)據(jù)信息。根據(jù)部隊的實際情況,利用數(shù)據(jù)挖掘技術(shù)對部隊人員健康、飲食、訓練等數(shù)據(jù)信息進行多維分析,其中包含上鉆、切片、下鉆等;第三,挖掘健康與飲食之間的內(nèi)在關(guān)系。根據(jù)數(shù)據(jù)庫中許多面向主題的歷史數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)進行分析與演算得到部隊人員的訓練和健康情況與部隊飲食之間內(nèi)在關(guān)系,以便于為部隊食品采購提供合理的、有效的保障,從而提高部隊整體人員的健康水平、身體素質(zhì)以及訓練質(zhì)量,對提高我國部隊戰(zhàn)斗力有著深遠的意義。
三、結(jié)束語
篇4
統(tǒng)計學論文2000字(一):影響民族院校統(tǒng)計學專業(yè)回歸分析成績因素的研究論文
摘要:學習成績是評價學生素質(zhì)的重要方面,也是教師檢驗教學能力、反思教學成果的重要標準。利用大連民族大學統(tǒng)計學專業(yè)本科生有關(guān)數(shù)據(jù)(專業(yè)基礎(chǔ)課成績、平時成績和回歸分析期末成績),建立多元線性回歸模型,對影響回歸分析期末成績的因素進行深入研究,其結(jié)果對今后的教學方法改進和教學質(zhì)量提高具有十分重要的指導意義。
關(guān)鍵詞:多元線性回歸;專業(yè)基礎(chǔ)課成績;平時成績;期末成績
為了實現(xiàn)教學目標,提高教學質(zhì)量,有效提高學生學習成績是很有必要的。我們知道專業(yè)基礎(chǔ)課成績必定影響專業(yè)課成績,而且平時成績也會影響專業(yè)課成績,這兩類成績與專業(yè)課成績基本上是呈正相關(guān)的,但它們之間的關(guān)系密切程度有多大?它們之間又存在怎樣的內(nèi)在聯(lián)系呢?就這些問題,本文主要選取了2016級統(tǒng)計專業(yè)50名學生的四門專業(yè)基礎(chǔ)課成績以及回歸分析的平時成績和期末成績,運用SPSS統(tǒng)計軟件進行分析研究,尋求回歸分析期末成績影響因素的變化規(guī)律,擬合出關(guān)系式,從而為強化學生的后續(xù)學習和提高老師的教學質(zhì)量提供了有利依據(jù)。
一、數(shù)據(jù)選取
回歸分析是統(tǒng)計專業(yè)必修課,也是統(tǒng)計學中的一個非常重要的分支,它在自然科學、管理科學和社會、經(jīng)濟等領(lǐng)域應用十分廣泛。因此研究影響統(tǒng)計學專業(yè)回歸分析成績的相關(guān)性是十分重要的。
選取了統(tǒng)計專業(yè)50名學生的專業(yè)基礎(chǔ)課成績(包括數(shù)學分析、高等代數(shù)、解析幾何和概率論)、回歸分析的平時成績和期末成績,結(jié)合多元線性回歸的基礎(chǔ)理論知識[1-2],建立多元回歸方程,進行深入研究,可以直觀、高效、科學地分析各種因素對回歸分析期末成績造成的影響。
二、建立多元線性回歸模型1及數(shù)據(jù)分析
運用SPSS統(tǒng)計軟件對回歸分析期末成績的影響因素進行研究,可以得到準確、科學合理的數(shù)據(jù)結(jié)果,全面分析評價學生考試成績,對教師以后的教學工作和學生的學習會有較大幫助。自變量x1表示數(shù)學分析成績,x2表示高等代數(shù)成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時成績;因變量y1表示回歸分析期末成績,根據(jù)經(jīng)驗可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關(guān)系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個基本假設(shè),
1.隨機誤差項具有零均值和等方差,即
(2)
這個假定通常稱為高斯-馬爾柯夫條件。
2.正態(tài)分布假定條件
由多元正態(tài)分布的性質(zhì)和上述假定可知,隨機變量y1服從n維正態(tài)分布。
從表1描述性統(tǒng)計表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標準差分別為10.847,11.531,8.929,9.018,9.221,y1的標準差為8.141;有效樣本量n=50。
回歸分析期末成績y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數(shù)x2的|t|值為0.651小于t?琢/2(44),因此x2對y1的影響不顯著,其他自變量對y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數(shù)據(jù)分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F(xiàn)統(tǒng)計量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關(guān)系是顯著的。
四、結(jié)束語
通過對上述模型進行分析,即各個自變量對因變量的邊際影響,可以得到以下結(jié)論:在保持其他條件不變的情況下,當數(shù)學分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當解析幾何成績、概率論成績和平時成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。
通過對學生專業(yè)基礎(chǔ)課成績、平時成績與回歸分析期末成績之間相關(guān)關(guān)系的研究,一方面有利于教師把控回歸分析教學課堂,提高教師意識,注重專業(yè)基礎(chǔ)課教學的重要性,同時,當學生平時成績不好時,隨時調(diào)整教學進度提高學生平時學習能力;另一方面使學生認識到,為了更好地掌握回歸分析知識,應加強專業(yè)基礎(chǔ)課的學習,提高平時學習的積極性。因此,通過對回歸分析期末成績影響因素的研究能有效的解決教師教學和學生學習中的許多問題。
統(tǒng)計學畢業(yè)論文范文模板(二):大數(shù)據(jù)背景下統(tǒng)計學專業(yè)“數(shù)據(jù)挖掘”課程的教學探討論文
摘要:互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計算技術(shù)的蓬勃發(fā)展,造就了一個嶄新的大數(shù)據(jù)時代,這些變化對統(tǒng)計學專業(yè)人才培養(yǎng)模式的變革起到了助推器的作用,而數(shù)據(jù)挖掘作為拓展和提升大數(shù)據(jù)分析方法與思路的應用型課程,被廣泛納入統(tǒng)計學本科專業(yè)人才培養(yǎng)方案。本文基于數(shù)據(jù)挖掘課程的特點,結(jié)合實際教學經(jīng)驗,對統(tǒng)計學本科專業(yè)開設(shè)數(shù)據(jù)挖掘課程進行教學探討,以期達到更好的教學效果。
關(guān)鍵詞:統(tǒng)計學專業(yè);數(shù)據(jù)挖掘;大數(shù)據(jù);教學
一、引言
通常人們總結(jié)大數(shù)據(jù)有“4V”的特點:Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價值密度低)。從這樣大量、多樣化的數(shù)據(jù)中挖掘和發(fā)現(xiàn)內(nèi)在的價值,是這個時代帶給我們的機遇與挑戰(zhàn),同時對數(shù)據(jù)分析技術(shù)的要求也相應提高。傳統(tǒng)教學模式并不能適應和滿足學生了解數(shù)據(jù)處理和分析最新技術(shù)與方法的迫切需要。對于常常和數(shù)據(jù)打交道的統(tǒng)計學專業(yè)的學生來說,更是如此。
二、課程教學探討
針對統(tǒng)計學本科專業(yè)的學生而言,“數(shù)據(jù)挖掘”課程一般在他們?nèi)昙壔蛘咚哪昙壦_設(shè),他們在前期已經(jīng)學習完統(tǒng)計學、應用回歸分析、多元統(tǒng)計分析、時間序列分析等課程,所以在“數(shù)據(jù)挖掘”課程的教學內(nèi)容選擇上要有所取舍,同時把握好難度。不能把“數(shù)據(jù)挖掘”課程涵蓋了的所有內(nèi)容不加選擇地要求學生全部掌握,對學生來說是不太現(xiàn)實的,需要為統(tǒng)計學專業(yè)本科生“個性化定制”教學內(nèi)容。
(1)“數(shù)據(jù)挖掘”課程的教學應該偏重于應用,更注重培養(yǎng)學生解決問題的能力。因此,教學目標應該是:使學生樹立數(shù)據(jù)挖掘的思維體系,掌握數(shù)據(jù)挖掘的基本方法,提高學生的實際動手能力,為在大數(shù)據(jù)時代,進一步學習各種數(shù)據(jù)處理和定量分析工具打下必要的基礎(chǔ)。按照這個目標,教學內(nèi)容應以數(shù)據(jù)挖掘技術(shù)的基本原理講解為主,讓學生了解和掌握各種技術(shù)和方法的來龍去脈、功能及優(yōu)缺點;以算法講解為輔,由于有R語言、python等軟件,學生了解典型的算法,能用軟件把算法實現(xiàn),對軟件的計算結(jié)果熟練解讀,對各種算法的改進和深入研究則不作要求,有興趣的同學可以自行課下探討。
(2)對于已經(jīng)學過的內(nèi)容不再詳細講解,而是側(cè)重介紹它們在數(shù)據(jù)挖掘中的功能及綜合應用。在新知識的講解過程中,注意和已學過知識的融匯貫通,既復習鞏固了原來學過的知識,同時也無形中降低了新知識的難度。比如,在數(shù)據(jù)挖掘模型評估中,把混淆矩陣、ROC曲線、誤差平方和等知識點就能和之前學過的內(nèi)容有機聯(lián)系起來。
(3)結(jié)合現(xiàn)實數(shù)據(jù),讓學生由“被動接收”式的學習變?yōu)椤爸鲃犹骄俊毙偷膶W習。在講解每種方法和技術(shù)之后,增加一個或幾個案例,以加強學生對知識的理解。除了充分利用已有的國內(nèi)外數(shù)據(jù)資源,還可以鼓勵學生去搜集自己感興趣的或者國家及社會大眾關(guān)注的問題進行研究,提升學生學習的成就感。
(4)充分考慮前述提到的三點,課程內(nèi)容計劃安排見表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實踐應用性,所以需要結(jié)合平時課堂表現(xiàn)、平時實驗項目完成情況和期末考試來綜合評定成績。采取期末閉卷理論考試占50%,平時實驗項目完成占40%,課堂表現(xiàn)占10%,這樣可以全方位的評價學生的表現(xiàn)。
三、教學效果評估
經(jīng)過幾輪的教學實踐后,取得了如下的教學效果:
(1)學生對課程的興趣度在提升,課下也會不停地去思考數(shù)據(jù)挖掘有關(guān)的方法和技巧,發(fā)現(xiàn)問題后會一起交流與討論。
(2)在大學生創(chuàng)新創(chuàng)業(yè)項目或者數(shù)據(jù)分析的有關(guān)競賽中,選用數(shù)據(jù)挖掘方法的人數(shù)也越來越多,部分同學的成果還能在期刊上正式發(fā)表,有的同學還能在競賽中取得優(yōu)秀的成績。
(3)統(tǒng)計學專業(yè)本科生畢業(yè)論文的選題中利用數(shù)據(jù)挖掘有關(guān)方法來完成的論文越來越多,論文的完成質(zhì)量也在不斷提高。
(4)本科畢業(yè)生的就業(yè)崗位中從事數(shù)據(jù)挖掘工作的人數(shù)有所提高,說明滿足企業(yè)需求技能的人數(shù)在增加。繼續(xù)深造的畢業(yè)生選擇數(shù)據(jù)挖掘研究方向的人數(shù)也在逐漸增多,表明學生的學習興趣得以激發(fā)。
教學實踐結(jié)果表明,通過數(shù)據(jù)挖掘課程的學習,可以讓學生在掌握理論知識的基礎(chǔ)上,進一步提升分析問題和解決實際問題的能力。
篇5
>> 基于本體的網(wǎng)絡輿情觀點挖掘方法研究 基于熱點文件下載的網(wǎng)絡輿情信息挖掘方法研究 基于網(wǎng)頁文本獲取的高校網(wǎng)絡輿情監(jiān)控 基于OAG循環(huán)的網(wǎng)絡輿情管理模型研究 基于大規(guī)模文本數(shù)據(jù)情感挖掘的企業(yè)輿情研究 基于文本挖掘的網(wǎng)絡媒體報道研究 基于模糊神經(jīng)網(wǎng)絡的Web文本挖掘系統(tǒng) 基于PDCA循環(huán)的預算管理 基于PDCA循環(huán)的績效考評 基于 PDCA 循環(huán)方法的瀝青路面質(zhì)量動態(tài)管理的研究 基于數(shù)據(jù)挖掘的網(wǎng)絡輿情預警決策支持系統(tǒng) 基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡輿情智能監(jiān)測與引導平臺設(shè)計研究 基于Web挖掘的突發(fā)事件網(wǎng)絡輿情預警研究 基于Web數(shù)據(jù)挖掘的網(wǎng)絡輿情分析技術(shù)研究 基于Web挖掘的突發(fā)事件網(wǎng)絡輿情預警策略探討 基于數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡輿情預測中的應用 基于數(shù)據(jù)挖掘的高校網(wǎng)絡輿情分析系統(tǒng)設(shè)計與實現(xiàn) 基于數(shù)據(jù)挖掘的輿情觀點挖掘研究 基于蛙鳴博弈的網(wǎng)絡輿情與政府監(jiān)管的模型淺析 基于PDCA循環(huán)的績效管理體系的構(gòu)建 常見問題解答 當前所在位置:.
[2]張玉亮.突發(fā)事件網(wǎng)絡輿情的生成原因與導控策略――基于網(wǎng)絡輿情主體心理的分析視閾[J].情報雜志,2012,31(4):54-57.
[3]許鑫,章成志,李雯靜.國內(nèi)網(wǎng)絡輿情研究的回顧與展望[J].情報理論與實踐,2009,32(3):115-120.
[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.
[5]鄭軍.網(wǎng)絡輿情監(jiān)控的熱點發(fā)現(xiàn)算法研究[D].哈爾濱哈爾濱工程大學,2007.
[6]陳耘可,李博,鄭天翔.PDCA循環(huán)在煤炭企業(yè)質(zhì)量標準化建設(shè)中的研究與應用[J].煤炭經(jīng)濟研究,2013,33(2):77-79.
[7]辛敏.PDCA理論在護理質(zhì)量管理中的應用研究[D].碩士學位論文:山西醫(yī)科大學,2010.
篇6
關(guān)鍵詞: 居民出行特征; 數(shù)據(jù)挖掘; GPS軌跡數(shù)據(jù); DBSCAN
中圖分類號:TP29 文獻標志碼:A 文章編號:1006-8228(2017)05-37-03
Research on the characteristics of resident travel based on the taxi
GPS trajectory data mining
Lin Jiyan, Zhang Yaqiong, Zhang Hui
(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)
Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.
Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN
0 引言
在城市的上下班高峰期,道路磯率淺鞘薪煌ㄎ侍庵兇釵突出的難題,這跟城市居民出行行為密不可分,因為出行的居民是交通量的主要來源[1]。一個城市的交通系統(tǒng)狀況跟城市居民的出行行為息息相關(guān),居民的出行行為會對城市交通體系產(chǎn)生影響[2]。對居民出行特征進行研究是城市和交通規(guī)劃、城市公共基礎(chǔ)設(shè)施建設(shè)管理中的一個基礎(chǔ)性任務,不僅可以用來對目前的交通出行情況進行評估,也可以用來對居民的出行需求進行預測,對實施合理有效的城市交通規(guī)劃起著至關(guān)重要的作用[3]。
出租車因其靈活性和便利性,已日漸成為城市交通系統(tǒng)的重要組成部分,同時,因為它的起點和終點由乘客決定,且24小時不間斷服務,所以,出租車的運營規(guī)律能夠反映出乘客的出行特征[4]。由于裝載在出租車上的GPS和通信設(shè)備以一定的頻率向城市交通客運管理中心傳送出租車的實時經(jīng)緯度、運營狀態(tài)、行駛方向、速度等信息,因此,管理中心會積累大量的出租車GPS軌跡數(shù)據(jù)[5],利用DBSCAN對這些進行數(shù)據(jù)進行聚類分析,可以在一定程度上挖掘乘客出行的時空特征,也能為出租車尋找最佳的載客區(qū)域提供依據(jù),有效的降低出租車的空駛率。
1 GPS軌跡數(shù)據(jù)挖掘設(shè)計
1.1 數(shù)據(jù)預處理
本文選取榆陽區(qū)(地理坐標為東經(jīng)108?58'-110?24',北緯37?49'-38?58'之間)作為研究區(qū)域,GPS軌跡數(shù)據(jù)使用榆陽區(qū)1100多輛出租車五天的運營數(shù)據(jù),對數(shù)據(jù)進行預處理后,出租車軌跡數(shù)據(jù)由車牌ID tID、、當前位置loc、GPS時間ct、營運狀態(tài)tsta、行駛方向tdir、GPS速度dspe等六個屬性組成,部分屬性值如表1所示。
表1中,營運狀態(tài)的取值為0-3,其中0表示空載,1表示載客,2表示駐車,3表示停運;GPS方向的取值為000-360,以度為單位,即與北極方向的夾角,代表車輛的行駛方向。
1.2 利用DBSCAN算法進行聚類挖掘
居民的作息和社會活動有明顯的時間規(guī)律,比如上下班高峰期的載客點分布情況和非高峰期的居民出行特征有可能完全不同,因此,可以先將GPS歷史軌跡數(shù)據(jù)根據(jù)時間特征分類,再進行密度聚類分析,如此便可充分挖掘在不同時間段上居民出行特征的空間密度分布情況,給出租車提供更加合理的時空載客區(qū)域分布數(shù)據(jù),有效地提高其巡游過程中的載客成功率?;诖?,論文引入了DBBSCAN算法,該算法需要3個輸入?yún)?shù):歷史軌跡數(shù)據(jù)對象D,空間半徑ε,以及密度閾值MinPts;輸出參數(shù)為聚類簇C,部分MATLAB代碼如下:
data=importdata('data.xlsx');
data=data.data.Sheet1;
……
num=size(data,1);
k=floor(log(num))+1;
k=round(num/25)+1;
k_dist=zeros(num,1);
for i=1:num
temp=repmat(data(i,:),num,1);
gx0=temp(:,1); gy0=temp(:,2);
gx1=data(:,1);gy1=data(:,2);
dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);
dist_s=sort(dist0);
k_dist(i)=dist_s(k);
end
x=1:num;
figure;plot(x,k_dist,'r-');
xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');
……
x=[(1:m)' data];
[m,n]=size(x);
types=zeros(1,m);
dealed=zeros(m,1);
dis=calDistance(x(:,2:n));
number=1;
……
img=imread('map.jpg');
[Ny,Nx]=size(img);
……
figure;imagesc(x00,y00,img); colormap(gray); hold on;
for i=1:m
if class(i)==-1
plot(data(i,1),data(i,2),'.r');
else if class(i)==1
if types(i)==1
plot(data(i,1),data(i,2),'+b');
else
plot(data(i,1),data(i,2),'.b');
end
elseif class(i)==2
if types(i)==1
plot(data(i,1),data(i,2),'+g');
else
plot(data(i,1),data(i,2),'.g');
end
……
plot(x1,y1,'r*');
xlabel('度'); ylabel('緯度');
2 實驗結(jié)果
聚類結(jié)果如圖1和圖2所示,出行熱點區(qū)域在圖中用圓圈標出。
以上的聚類結(jié)果顯示,榆陽區(qū)的居民出行呈現(xiàn)一定空間和時間特征。工作日和非工作日出租車熱點區(qū)域不同,且工作日的不同時間居民出行的特征不同;在工作日,出租車的載客熱點數(shù)比非工作日多;而載客熱點分布,工作日比非工作日分散。該聚類結(jié)果也可以給出租車司機提供歷史載客熱點序列,從一定程度上解決巡游方式的出租車空載率高的問題。
3 結(jié)束語
本文利用DBSCAN算法對出租車的歷史GPS軌跡數(shù)據(jù)進行挖掘,從挖掘結(jié)果可以分析出居民出行的時空特征,從而用來對目前的交通出行情況進行評估,同時也可以用來對居民的出行需求進行預測;再者,可以根據(jù)挖掘結(jié)果給出租車司機提供歷史載客熱點序列,幫助出租車司機降低空駛率。本文僅針對工作日和周末特定時刻給出了聚類分析,沒有詳細地分析一天中不同時刻的居民出行特征,以后的工作中會繼續(xù)研究和改進。
參考文獻(References):
[1] 衛(wèi)龍,高紅梅.基于軌跡數(shù)據(jù)挖掘的居民出行特征研究進展[J].西部交通科技,2016.10:87-92
[2] 馮琦森.基于出租車軌跡的居民出行熱點路徑和區(qū)域挖掘[D].重慶大學,2016.
[3] 陳世莉,陶海燕,李旭亮,卓莉.基于潛在語義信息的城市功能區(qū)識別――廣州市浮動車GPS時空數(shù)據(jù)挖掘[J].地理學報,2016.3:471-483
[4] 張俊濤,武芳,張浩.利用出租車軌跡數(shù)據(jù)挖掘城市居民出行特征[J].地理與地理信息科學,2015.6:104-108
[5] 張薇,林龍.基于數(shù)據(jù)挖掘的增城居民出行特征分析[J].科技和產(chǎn)業(yè),2015.7:61-64
[6] 趙苗苗.基于出租車軌跡數(shù)據(jù)挖掘的推薦模型研究[D].首都經(jīng)濟貿(mào)易大學碩士學位論文,2015.
[7] 童曉君.基于出租車GPS數(shù)據(jù)的居民出行行為分析[D].中南大學碩士學位論文,2012.
篇7
論文關(guān)鍵詞:數(shù)據(jù)挖掘;電子商務;web數(shù)據(jù)挖掘
1 引言
當前,隨著網(wǎng)絡技術(shù)的發(fā)展和數(shù)據(jù)庫技術(shù)的迅猛發(fā)展,有效推動了商務活動由傳統(tǒng)活動向電子商務變革。電子商務就是利用計算機和網(wǎng)絡技術(shù)以及遠程通信技術(shù),實現(xiàn)整個商務活動的電子化、數(shù)字化和網(wǎng)絡化。基于internet的電子商務快速發(fā)展,使現(xiàn)代企業(yè)積累了大量的數(shù)據(jù),這些數(shù)據(jù)不僅能給企業(yè)帶來更多有用信息,同時還使其他現(xiàn)代企業(yè)管理者能夠及時準確的搜集到大量的數(shù)據(jù)。訪問客戶提供更多更優(yōu)質(zhì)的服務,成為電子商務成敗的關(guān)鍵因素,因而受到現(xiàn)代電子商務經(jīng)營者的高度關(guān)注,這也對計算機web數(shù)據(jù)技術(shù)提出了新的要求,web 數(shù)據(jù)挖掘技術(shù)應運而生。它是一種能夠從網(wǎng)上獲取大量數(shù)據(jù),并能有效地提取有用信息供企業(yè)決策者分析參考,以便科學合理制定和調(diào)整營銷策略,為客戶提供動態(tài)、個性化、高效率服務的全新技術(shù)。目前,它已成為電子商務活動中不可或缺的重要載體。
2 計算機web數(shù)據(jù)挖掘概述
2.1 計算機web數(shù)據(jù)挖掘的由來
計算機web數(shù)據(jù)挖掘是一個在web資源上將對自己有用的數(shù)據(jù)信息進行篩選的過程。web數(shù)據(jù)挖掘是把傳統(tǒng)的數(shù)據(jù)挖掘思想和方法移植到web應用中,即從現(xiàn)有的web文檔和活動中挑選自己感興趣且有用的模式或者隱藏的數(shù)據(jù)信息。計算機web數(shù)據(jù)挖掘可以在多領(lǐng)域中展示其作用,目前已被廣泛應用于數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計學、人工智能中的機器學習和神經(jīng)網(wǎng)絡等多個方面,其中對商務活動的變革起到重大的推動作用方面最為明顯。
2.2 計算機web數(shù)據(jù)挖掘含義及特征
(1) web數(shù)據(jù)挖掘的含義。
web 數(shù)據(jù)挖掘是指數(shù)據(jù)挖掘技術(shù)在web 環(huán)境下的應用,是一項數(shù)據(jù)挖掘技術(shù)與www技術(shù)相結(jié)合產(chǎn)生的新技術(shù),綜合運用到了計算機語言、internet、人工智能、統(tǒng)計學、信息學等多個領(lǐng)域的技術(shù)。具體說,就是通過充分利用網(wǎng)絡(internet),挖掘用戶訪問日志文件、商品信息、搜索信息、購銷信息以及網(wǎng)絡用戶登記信息等內(nèi)容,從中找出隱性的、潛在有用的和有價值的信息,最后再用于企業(yè)管理和商業(yè)決策。
(2)web數(shù)據(jù)挖掘的特點。
計算機web數(shù)據(jù)挖掘技術(shù)具有以下特點:一是用戶不用提供主觀的評價信息;二是用戶“訪問模式動態(tài)獲取”不會過時;三是可以處理大規(guī)模的數(shù)據(jù)量,并且使用方便;四是與傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫相比,web是一個巨大、分布廣泛、全球性的信息服務中心。
(3)計算機web數(shù)據(jù)挖掘技術(shù)的類別。
web數(shù)據(jù)挖掘技術(shù)共有三類:第一類是web使用記錄挖掘。就是通過網(wǎng)絡對web 日志記錄進行挖掘,查找用戶訪問web頁面的模式及潛在客戶等信息,以此提高其站點所有服務的競爭力。第二類是web內(nèi)容挖掘。既是指從web文檔中抽取知識的過程。第三類是web結(jié)構(gòu)挖掘。就是通過對web上大量文檔集合的內(nèi)容進行小結(jié)、聚類、關(guān)聯(lián)分析的方式,從web文檔的組織結(jié)構(gòu)和鏈接關(guān)系中預測相關(guān)信息和知識。
3 計算機web數(shù)據(jù)挖掘技術(shù)與電子商務的關(guān)系
借助計算機技術(shù)和網(wǎng)絡技術(shù)的日臻成熟,電子商務正以其快速、便捷的特點受到越來越多的企業(yè)和個人的關(guān)注。隨著電子商務企業(yè)業(yè)務規(guī)模的不斷擴大,電子商務企業(yè)的商品和客戶數(shù)量也隨之迅速增加,電子商務企業(yè)以此獲得了大量的數(shù)據(jù),這些數(shù)據(jù)正成為了電子商務企業(yè)客戶管理和銷售管理的重要信息。為了更好地開發(fā)和利用這些數(shù)據(jù)資源,以便給企業(yè)和客戶帶來更多的便利和實惠,各種數(shù)據(jù)挖掘技術(shù)也逐漸被應用到電子商務網(wǎng)站中。目前,基于數(shù)據(jù)挖掘(特別是web數(shù)據(jù)挖掘)技術(shù)構(gòu)建的電子商務推薦系統(tǒng)正成為電子商務推薦系統(tǒng)發(fā)展的一種趨勢。
4 計算機web數(shù)據(jù)挖掘在電子商務中的具體應用
(1)電子商務中的web數(shù)據(jù)挖掘的過程。
在電子商務中,web數(shù)據(jù)挖掘的過程主要有以下三個階段:既是數(shù)據(jù)準備階段、數(shù)據(jù)挖掘操作階段、結(jié)果表達和解釋階段。如果在結(jié)果表達階段中,分析結(jié)果不能讓電子商務企業(yè)的決策者滿意,就需要重復上述過程,直到滿意為止。
(2)web數(shù)據(jù)挖掘技術(shù)在電子商務中的應用。
目前,電子商務在企業(yè)中得到廣泛應用,極大地促進了電子商務網(wǎng)站的興起,經(jīng)過分析一定時期內(nèi)站點上的用戶的訪問信息,便可發(fā)現(xiàn)該商務站點上潛在的客戶群體、相關(guān)頁面、聚類客戶等數(shù)據(jù)信息,企業(yè)信息系統(tǒng)因此會獲得大量的數(shù)據(jù),如此多的數(shù)據(jù)使web數(shù)據(jù)挖掘有了豐富的數(shù)據(jù)基礎(chǔ),使它在各種商業(yè)領(lǐng)域有著更加重要的實用價值。因而,電子商務必將是未來web數(shù)據(jù)挖掘的主攻方向。web數(shù)據(jù)挖掘技術(shù)在電子商務中的應用主要包含以下幾方面:
一是尋找潛在客戶。電子商務活動中,企業(yè)的銷售商可以利用分類技術(shù)在internet上找到潛在客戶,通過挖掘web日志記錄等信息資源,對訪問者進行分類,尋找訪問客戶共同的特征和規(guī)律,然后從已經(jīng)存在的分類中找到潛在的客戶。
二是留住訪問客戶。電子商務企業(yè)通過商務網(wǎng)站可以充分挖掘客戶瀏覽訪問時留下的信息,了解客戶的瀏覽行為,然后根據(jù)客戶不同的愛好和要求,及時做出讓訪問客戶滿意的頁面推薦和專屬性產(chǎn)品,以此來不斷提高網(wǎng)站訪問的滿意度,最大限度延長客戶駐留的時間,實現(xiàn)留住老客戶發(fā)掘新客戶的目的。
三是提供營銷策略參考。通過web數(shù)據(jù)挖掘,電子商務企業(yè)銷售商能夠通過挖掘商品訪問情況和銷售情況,同時結(jié)合市場的變化情況,通過聚類分析的方法,推導出客戶訪問的規(guī)律,不同的消費需求以及消費產(chǎn)品的生命周期等情況,為決策提供及時而準確的信息參考,以便決策者能夠適時做出商品銷售策略調(diào)整,優(yōu)化商品營銷。
四是完善商務網(wǎng)站設(shè)計。電子商務網(wǎng)站站點設(shè)計者能夠利用關(guān)聯(lián)規(guī)則,來了解客戶的行為記錄和反饋情況,并以此作為改進網(wǎng)站的依據(jù),不斷對網(wǎng)站的組織結(jié)構(gòu)進行優(yōu)化來方便客戶訪問,不斷提高網(wǎng)站的點擊率。
篇8
【關(guān)鍵詞】 數(shù)據(jù)挖掘技術(shù);電子商務;推薦系統(tǒng);研究
隨著計算機互聯(lián)網(wǎng)技術(shù)在社會工作與生活中的普及,電子商務產(chǎn)業(yè)也獲得了快速的發(fā)展。為了進一步擴大電子商務的市場,提高電子商務企業(yè)的經(jīng)濟效益,電子商務推薦系統(tǒng)被開發(fā)出來。而數(shù)據(jù)挖掘技術(shù)作為支持該系統(tǒng)運行的重要技術(shù),對電子商務推薦系統(tǒng)的發(fā)展具有重要意義。本文將主要對其進行分析與研究。
一、數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘技術(shù)至今還沒有一個統(tǒng)一的、確定的概念定義。歸結(jié)起來,筆者認為數(shù)據(jù)挖掘的概念應主要包括以下三方面內(nèi)容:①未知。一些學者也將其表述為新穎。這一方面內(nèi)容強調(diào)的是數(shù)據(jù)挖掘技術(shù)能夠清楚的揭示出許多數(shù)據(jù)之間的相互關(guān)聯(lián)關(guān)系,并對于隱藏在這些數(shù)據(jù)信息后的隱含信息也能隨之被呈現(xiàn)。通常來說,被挖掘出的信息越隱秘,那么其價值也就越大[1]。②可用。一些學者也將其表述為有效、支持決策等。數(shù)據(jù)挖掘技術(shù)的這一內(nèi)容主要強調(diào)對數(shù)據(jù)信息可用性價值的需求。因為只有挖掘出了有價值的、能夠被人們利用的數(shù)據(jù)信息,才能滿足人們的需求,推動某些事物的發(fā)展。③可理解。一些學者也將這一內(nèi)容解釋為可解釋。然而無論表述之間存在著怎樣的差異,這一內(nèi)容都主要對被挖掘出的數(shù)據(jù)信息的可理解狀況提出了要求。只有那些通被商家與客戶理解的數(shù)據(jù)信息才能夠被最終應用,發(fā)揮其自身的價值,帶動相關(guān)利益主體的進步與發(fā)展。
二、協(xié)同過濾技術(shù)
數(shù)據(jù)挖掘技術(shù)有許多種類,如關(guān)聯(lián)規(guī)則、聚類、貝葉斯網(wǎng)絡和協(xié)同過濾技術(shù)等[2]。其中協(xié)同過濾技術(shù)作為數(shù)據(jù)挖掘技術(shù)中最具有價值的一種技術(shù),被廣泛的應用到了現(xiàn)如今的電子商務推薦系統(tǒng)之中。
2.1協(xié)同過濾技術(shù)的實現(xiàn)
協(xié)同過濾技術(shù)的實現(xiàn)并不是一步就可以完成的,而需要經(jīng)過多個步驟。經(jīng)過歸納,筆者將其分為三個主要步驟:第一,人們需要事先對用戶進行調(diào)查,以記錄和收集他們對企業(yè)商品項目的評價信息;第二,對企業(yè)項目集的搜索結(jié)果進行生成操作;第三,對企業(yè)項目集推薦結(jié)果進行生成操作[3]。在進行第一個步驟時,人們經(jīng)常使用顯示評價法與人工調(diào)查法對商品項目的評價信息進行收集。在電子商務時代,傳統(tǒng)的人工走訪方式已經(jīng)逐漸被取代,更多的是應用顯示評價法對商品項目信息進行收集。
2.2基于用戶的協(xié)同過濾技術(shù)
此種協(xié)同過濾技術(shù)主要通過慣性分析方式將電子商務企業(yè)的用戶作為研究對象,這種數(shù)據(jù)挖掘技術(shù)是以用戶為研究對象的。也就是說當電子商務企業(yè)的某兩個用戶對于某一商品的評價信息趨于一致時,那么系統(tǒng)就會推斷這兩個用戶對商品的喜好品味是相同的,而商務推薦系統(tǒng)在以后的工作中在對某一商品進行推薦評價等工作時就會認為這兩個用戶也會對此商品有著同樣的喜愛程度。
將基于用戶的協(xié)同過濾技術(shù)應用到電子商務的推薦系統(tǒng)中,電子商務推薦系統(tǒng)能夠更加輕松的對商品項目用戶的喜好傾向進行搜集與挖掘,從而為相關(guān)的商家提供一定的數(shù)據(jù)信息支持其新產(chǎn)品的研發(fā)設(shè)計等。并且通過這一技術(shù)電子商務推薦系統(tǒng)還能夠?qū)Σ⑽促徺I過某商品的用戶,但是與其有著相同喜好的用戶已經(jīng)購買過的關(guān)聯(lián)用戶進行商品推薦,以發(fā)掘更多的潛在購買用戶,擴大企業(yè)的市場,增加產(chǎn)品的銷量,從而獲取更高的利益。
2.3基于項目的協(xié)同過濾技術(shù)
基于項目的協(xié)同過濾技術(shù)主要將商品項目作為其作用對象。若電子商務推薦系統(tǒng)要想將某件商品Y推薦給某個用戶S。就應該首先將用戶S已經(jīng)購買并評價過的商品(Y1、Y2……Yn)進行統(tǒng)計,然后對電子商務企業(yè)需要推薦的商品Y和這n個已經(jīng)評價過的商品之間的相似度進行計算與對比。找出這n個評價過商品中與待推薦商品Y相似度最大的商品項目,從而建立起與待推薦商品Y相似的商品集合(n1、n2……nk)。由于商品用戶S對待推薦的商品Y的評價情況與用戶S對(n1、n2……nk)中商品集合的評價情況相似度較高,因此電子商務推薦系統(tǒng)會用用戶S對(n1、n2……nk)商品集合的評價值進行加權(quán)的方式來得出用戶S對待推薦商品Y的評價值F。當F大于推薦平均值w時,電子商務推薦系統(tǒng)就會對用戶S推薦商品Y。
三、結(jié)束語
本文主要對基于數(shù)據(jù)挖掘技術(shù)的電子商務推薦系統(tǒng)進行了研究,并重點對協(xié)同過濾技術(shù)對電子商務推薦系統(tǒng)的重要性作用進行了分析,希望能夠進一步推動電子商務推薦系統(tǒng)的發(fā)展。
參 考 文 獻
[1] 韓家煒.數(shù)據(jù)挖掘――概念與技術(shù)(范明,孟小峰譯)[M].機械工業(yè)出版社,2011.
篇9
[關(guān)鍵詞]文本挖掘人 文社科 技術(shù)應用
[分類號]TP391
[文本挖掘概述
文本挖掘(text mining)是一個跨學科的交叉研究領(lǐng)域,涉及到數(shù)據(jù)挖掘、機器學習、統(tǒng)計學、自然語言處理、可視化技術(shù)、數(shù)據(jù)庫技術(shù)等多個學科領(lǐng)域的知識和技術(shù)。目前關(guān)于文本挖掘并沒有統(tǒng)一的定義,關(guān)于文本挖掘的名稱亦有“文本數(shù)據(jù)挖掘(text data mining)”或“文本知識發(fā)現(xiàn)(knowledge discovery in text)”等不同說法。一個比較廣泛使用的定義是:文本挖掘是指為了發(fā)現(xiàn)知識,從文本數(shù)據(jù)中抽取隱含的、以前未知的、潛在有用的模式的過程。它是一個分析文本數(shù)據(jù),抽取文本信息,進而發(fā)現(xiàn)文本知識的過程。
一個完整的文本挖掘過程一般包括預處理、模式挖掘、模式評價等多個步驟,其中包含了多種文本處理與挖掘技術(shù),如數(shù)據(jù)預處理技術(shù)中的分詞、特征表示、特征提取技術(shù),挖掘分析技術(shù)中的文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、關(guān)聯(lián)規(guī)則、分布分析與趨勢預測等技術(shù)以及信息展示中的可視化技術(shù)等。
文本挖掘技術(shù)拓展了現(xiàn)有的數(shù)據(jù)挖掘技術(shù),把挖掘的對象從結(jié)構(gòu)化的數(shù)值數(shù)據(jù)擴展到非結(jié)構(gòu)化的文本數(shù)據(jù),因此可以幫助我們從海量的文本數(shù)據(jù)中發(fā)現(xiàn)新的模式、模型、規(guī)則、趨勢等知識,目前在很多領(lǐng)域得到了廣泛應用。文獻計量的結(jié)果表明,近年來國際上文本挖掘的研究論文呈迅猛上升勢頭。以“text mining”為主題詞在Web of Knowledge(WoK)中檢索可得與文本挖掘相關(guān)的論文3 049篇(截至2010年),且呈逐年上升的趨勢。從WoK學科統(tǒng)計來看,目前文本挖掘技術(shù)的研究主要集中于計算機科學、計算生物學、數(shù)學、醫(yī)藥信息學、生物化學與分子化學、信息科學、醫(yī)學等自然科學領(lǐng)域,論文總數(shù)占文獻總量的82%。相比而言,人文社會科學領(lǐng)域的論文則較少,兩者之和為18%,其中人文科學僅為1%。
由于互聯(lián)網(wǎng)時代學術(shù)資源生產(chǎn)與傳遞方式的變化,以新的方法和技術(shù)從海量文本中發(fā)現(xiàn)隱含的知識和模式,成為情報學中最有前景的領(lǐng)域之一。由于人文社科文獻的非結(jié)構(gòu)化特征更加明顯,文獻中包含的隱性內(nèi)容更多,能否在人文社科領(lǐng)域成功運用文本挖掘就成為了檢驗文本挖掘的方法論優(yōu)勢的試金石。本文以文本挖掘的幾個關(guān)鍵技術(shù)——信息抽取、文本分類、文本聚類、關(guān)聯(lián)規(guī)則、模式發(fā)現(xiàn)與可視化技術(shù)為主要線索,分析發(fā)現(xiàn)文本挖掘技術(shù)在人文社科研究中的應用特點,以便為人文社科研究中更加自覺地應用文本挖掘方法提供新的思路。
2、信息抽取應用
信息抽取(information extraction)是文本挖掘的前-端技術(shù),它從文本對象中抽取預先指定的實體、關(guān)系、事件等信息,形成結(jié)構(gòu)化的數(shù)據(jù)并輸入數(shù)據(jù)庫。信息抽取所獲得的結(jié)構(gòu)化信息片段從一個角度反映了文本內(nèi)容的內(nèi)在特征,因此通過機器學習等方法可以從中發(fā)現(xiàn)知識、挖掘知識,為科學研究提供有力的支持。
信息抽取作為一門獨立的內(nèi)容處理技術(shù),其本身在商業(yè)、情報分析、數(shù)字圖書館等領(lǐng)域有著廣泛的應用,已有較多專門的信息抽取系統(tǒng)投入商用。在人文社科研究中,信息抽取常常作為文本挖掘的一個重要步驟,作為知識發(fā)現(xiàn)技術(shù)的前端和基礎(chǔ)。文獻構(gòu)建了基于信息抽取的文本挖掘模型,均把信息抽取作為文本挖掘的一個重要組成部分,是提高文本挖掘效率的一個手段。不僅討論了信息抽取對文本挖掘的作用,而且證實了通過文本挖掘得出的規(guī)則對信息抽取系統(tǒng)具有指導作用。除了作為文本挖掘的前端技術(shù),信息抽取技術(shù)在改善信息檢索、輔助知識發(fā)現(xiàn)方面在人文社科研究中有著較多的應用。
2.1 改善信息檢索
傳統(tǒng)的信息檢索只能通過關(guān)鍵詞與文檔的匹配返回與用戶需求相關(guān)的文檔,而信息抽取則可以幫助用戶直接定位所需的信息,無需閱讀文檔的全部內(nèi)容。由于在處理海量數(shù)據(jù)時具有出色表現(xiàn),信息抽取在多個人文社科領(lǐng)域得到了應用。在古典文學研究領(lǐng)域,德國萊比錫大學承擔的eAQUA項目從古典文獻資料(公元前3000年一公元600年)中抽取特定領(lǐng)域的知識,并通過eAQUA門戶免費提供這些知識。在文獻中,英國倫敦國王學院的Matteo(2010)介紹了一個信息抽取在古典文學中的應用研究項目,該項目旨在對當代關(guān)于古希臘和拉丁文學作品進行研究的二手文獻進行實體抽取,并提供與原始文獻之間的關(guān)聯(lián),從而提供更高級的信息展示和檢索功能。在社會學領(lǐng)域,英國聯(lián)合信息系統(tǒng)委員會(JISC)資助的ASSERT E’’項目綜合利用信息抽取、文本聚類等技術(shù)提供了一個自動生成文獻綜述的系統(tǒng)。信息抽取技術(shù)與信息檢索技術(shù)互相融合滲透,為人文社科領(lǐng)域海量信息資源的獲取提供了極大的便利。
2.2 輔助知識發(fā)現(xiàn)
篇10
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;教育管理;算法;VB
中圖分類號:TP311.52 文獻標識碼:A文章編號:1007-9599 (2011) 03-0000-02
Education Management Decision Support System Based on Data Mining
Lin Lin
(Biochemical Engineering College of Union University,Beijing 10023,China)
Abstract:The paper theoretically expounds the concept of data mining,demonstrates the data mining in the education management decision support system of the core applications,introduces the education management decision support system of data collection, preprocessing,establish and maintain the DW,data mining algorithm choice,the specific content of decision tree algorithm,VB language program design,system testing,etc,discussed the system model in theory framework,rearch data mining and combining education management play a huge role,fnally,discussed the data mining technology in education management decision support system application prospect.
Keywords:Data mining;DW;Education management;Algorithm;VB
隨著信息時代的快速發(fā)展,外界所帶給我們的大量信息也越來越多。大量信息在給人們帶來方便的同時,也帶來了一大堆麻煩:信息過量難以消化,信息真假難以辯識,信息安全難以保證,信息格式難以統(tǒng)一。身處信息中的我們,如何才能不被信息淹沒、如何從中及時發(fā)現(xiàn)有用的信息呢?是否存在著一種工具、一種方法或者一個手段使得身處“數(shù)據(jù)爆炸、知識匱乏”的我們,能夠以一種輕松的狀態(tài)來進行有效的管理決策呢?
數(shù)據(jù)挖掘技術(shù)是人們長期對數(shù)據(jù)庫技術(shù)進行研究和開發(fā)的結(jié)晶,它為我們提供了一個非常優(yōu)秀的工具。
一、 數(shù)據(jù)挖掘技術(shù)
所謂數(shù)據(jù)挖掘就是指一個完整的過程,該過程就是從海量的隨機應用數(shù)據(jù)中,提取分析隱含在其中的、人們事先并不知道的、但又具有內(nèi)在聯(lián)系的、有價值的信息數(shù)據(jù),這些信息數(shù)據(jù)為決策提供必要的支持。
數(shù)據(jù)挖掘過程中詳細各個步驟的大體內(nèi)容如下六步:
1. 確定主題:即做好需求分析,清晰地定義出問題,并對探索的問題具有可預見性。
2. 數(shù)據(jù)的提煉:搜索與主題有關(guān)的數(shù)據(jù)信息,研究數(shù)據(jù)的質(zhì)量,并確定將要進行挖掘操作的類型。
3. 數(shù)據(jù)的轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個分析模型,這個分析模型是針對挖掘算法建立的。
4. 數(shù)據(jù)挖掘:對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進行挖掘,除了完善從選擇合適的挖掘算法外,其余一切工作要都能自動地完成。
5. 結(jié)果分析:解釋并評估結(jié)果,其使用的分析方法一般應視數(shù)據(jù)挖掘操作而定,通常會用到可視化技術(shù)。
6. 知識的同化:將分析所得到的知識集成到業(yè)務信息系統(tǒng)的組織結(jié)構(gòu)中去。
二、 數(shù)據(jù)挖掘與教育管理決策支持系統(tǒng)
我們使用數(shù)據(jù)挖掘技術(shù)對我們所掌握的信息進行特定的“挖掘”,能夠發(fā)現(xiàn):廣義知識、關(guān)聯(lián)知識、分類知識、預測型知識、偏差型知識,能夠在數(shù)據(jù)中尋找預測性的信息,能夠為我們的管理提供“做出決策”的依據(jù),能夠有力的支持我們做出恰如其分的選擇。
所謂教育管理,就是在特定的社會環(huán)境下,遵循教育的客觀規(guī)律,對各種教育資源進行合理配置,以實現(xiàn)教育方針和教育目標的行為,教育管理是社會管理的一部分。在學校教育管理中,我們引進數(shù)據(jù)挖掘技術(shù),正是想針對教育的海量數(shù)據(jù)進行有效的發(fā)掘,以期充分利用數(shù)據(jù)挖掘的長處,來發(fā)現(xiàn)這些海量數(shù)據(jù)中潛在的、長久以來未被發(fā)現(xiàn)的規(guī)則,能夠?qū)W生潛力做出數(shù)據(jù)挖掘,這就為學校的招生工作提供了一定程度的參考,并在學生入學后還可以分析其進步或者退步的可能原因是什么,解決學生教育導向的問題;還可以對學校管理層比較關(guān)心的問題進行挖掘。例如,在所有教職工中教師的比例有多大;一般意義上講某位教師是否達到了學校的一般標準;能夠?qū)處焾?zhí)教能力和教師人力資源優(yōu)化做出分析,在教師招聘中為人力資源主管提供一般性的判斷依據(jù),對所應聘的教師做出其潛力及前景分析,以便能夠輔助管理層做出更好的決策,優(yōu)化教育管理,促進教育管理良性發(fā)展。
三、 系統(tǒng)架構(gòu)的搭建
我們將分以下幾步來進行系統(tǒng)模型的設(shè)計及實現(xiàn):
1 對數(shù)據(jù)進行分析,建立數(shù)據(jù)倉庫
數(shù)據(jù)主要來源是檔案室現(xiàn)存的檔案,包括教職工和學生的,還要動態(tài)的添加一些數(shù)據(jù)。如果能夠得到教育院校的支持來豐富數(shù)據(jù),那就更好。這個數(shù)據(jù)的要求是大量、真實、準確。
對于教職工的信息,主要有以下屬性:編號、姓名、性別、民族、出生年月日、
政治面貌、工作時間、是否為班主任、是否為學校管理層、畢業(yè)院校、最高學歷、
最高學位、最高職稱、家庭經(jīng)濟條件、教學評估成績、所獲榮譽、所帶班級榮譽、研究成果等等,越詳細對我們進行數(shù)據(jù)挖掘就越好。如下表所示。
對于學生的信息,主要有以下屬性:學號、姓名、性別、民族、出生年月日、政治面貌、專業(yè)、班級、入學時間、入學成績、畢業(yè)去向、畢業(yè)成績單、畢業(yè)論文名稱、畢業(yè)論文成績、畢業(yè)證書、畢業(yè)后十年狀況(可選)、畢業(yè)后二十年狀況(可選)、畢業(yè)后四十年狀況(可選)、家庭條件、在校期間所獲榮譽等等。
對每一個屬性進行賦值初始化,如:性別,定義為字符型變量,M代表男,F(xiàn)代表女;又如:對教師的研究成果,是以字符來進行賦值的,涵蓋了發(fā)表的論文、編著的書籍、科研成果等等,這些分別按照級別予以打分,進行累加,最后全部總和即為該教師的研究成果的成績,然后對該成績進行加權(quán)求值,按照求值分別賦以A、B、C等字符。對每一位教職工和學生進行賦值,并錄入到數(shù)據(jù)倉庫中。創(chuàng)建數(shù)據(jù)倉庫的工具我們可以選擇Microsoft SQL Server 。需要注意的是,SQL Server “企業(yè)管理器”中控制臺根目錄中SQL Server組名稱應與其他名字一致,例如分析服務器是LINLIN2006,它也應該是LINLIN2006。
2 決策樹算法
決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。如圖4-1,針對學生畢業(yè)成績影響因素進行數(shù)據(jù)挖掘后的一棵決策樹,從中我們看到,決策樹的基本組成:節(jié)點、分支和葉子。
圖4-1決策樹
圖4-1中“入學成績=好”這個條件是樹的根,即決策樹的根節(jié)點。對條件的不同回答產(chǎn)生了“是”和“否”兩個分支;而是否“學習勤奮”是根節(jié)點的子節(jié)點(子節(jié)點的個數(shù)與決策樹算法有關(guān));如果分支下無節(jié)點,則到樹尾,稱為葉子,圖中“畢業(yè)成績=壞”就是其中的一個葉子。從樹根到每一片葉子的過程就是利用決策樹進行分類的過程,通常稱這個過程為“遍歷”。
決策樹算法是數(shù)據(jù)挖掘中常用的一種算法,常用于數(shù)據(jù)分析和預測。決策樹的構(gòu)造結(jié)果是一棵二叉樹(即每個節(jié)點有兩個分支)或多叉樹(節(jié)點可以包含多于兩個的子節(jié)點)。構(gòu)造決策樹的過程,即樹的生長過程是把條件數(shù)據(jù)不斷切分的過程,每次切分對應一個問題(即一個節(jié)點),二叉樹的內(nèi)部節(jié)點(非葉子)一般表示為一個邏輯判斷,如圖4-1。對每個切分的要求是分組之間的“差異”盡量最大。各種決策樹算法之間的主要區(qū)別就是對這個“差異”衡量方式的區(qū)別。我們只需要把切分看成是把數(shù)據(jù)信息分成幾份,每份數(shù)據(jù)信息之間盡可能不具有相同或相似的屬性,而同一份內(nèi)的數(shù)據(jù)盡量具有相同的屬性,即屬于同一類別。
對于教育管理決策者來說,決策樹的構(gòu)造,即在其生長過程中沒有必要太“茂盛”。因為這樣會大大降低樹的易理解性和易用性,而且也使決策樹本身對原始數(shù)據(jù)產(chǎn)生較大的依賴性,換句話說,這樣的決策樹可能對于原始數(shù)據(jù)非常準確,但當有新的數(shù)據(jù)信息加進的時候,準確性就會急劇下降,這種情況被稱之為訓練過渡。為了使得到的決策樹所蘊含的規(guī)則具有普遍性,我們必須有效避免訓練過度,同時減少訓練的時間。常用的方法是限制決策樹的過度成長,即預先設(shè)定決策樹的最大高度(層數(shù));此外也可以通過設(shè)定每個節(jié)點必須包含的最少記錄數(shù)來限制,當節(jié)點中記錄的個數(shù)小于這個數(shù)值時就停止切分。
1 使用VB對算法進行編程,實現(xiàn)各個模塊的功能
通過VB來進行圖形應用界面設(shè)計及核心程序編程。菜單的設(shè)計如下:導入數(shù)據(jù)倉庫、選擇數(shù)據(jù)倉庫、任務確立、選擇因素、開始運行、查看結(jié)果、保存結(jié)果、翻譯規(guī)則、保存規(guī)則、退出。主要通過表單及命令來實現(xiàn)各功能。樣本空間指的是由教職工、學生數(shù)據(jù)倉庫中的數(shù)據(jù)所構(gòu)成的數(shù)據(jù)空間。
2 測試
根據(jù)軟件測試的要求,必須對該系統(tǒng)進行數(shù)據(jù)測試,即用手中所擁有的檔案資料與數(shù)據(jù)挖掘的結(jié)果對比,進行測試。
首先,假定某學校教師部分檔案資料如下(受篇幅限制,僅有部分):
其次,我們使用表中的數(shù)據(jù)來檢測樹形結(jié)構(gòu)中每條枝葉的正確性。如果大部分吻合,那么該決策支持系統(tǒng)是成功的,軟件和算法都是正確的;否則就得檢查改正。這個測試以及測試結(jié)果比較的工作量是非常巨大的。
四、進行數(shù)據(jù)挖掘時應考慮的問題
1 確定問題,即用數(shù)據(jù)挖掘解決什么樣的問題,它是核心,偏離了這個主題,最終只能導致失??;
2 海量數(shù)據(jù)的問題,一方面是源數(shù)據(jù)的挖掘,一方面是數(shù)據(jù)的提煉;另外非標準格式的數(shù)據(jù)、多媒體數(shù)據(jù)、面向?qū)ο髷?shù)據(jù)處理問題;從而保證數(shù)據(jù)的質(zhì)量和時效性;
3 各種算法的使用;
4 變化的數(shù)據(jù)和知識問題;
5 枝葉――規(guī)則的易懂性問題;
6 與其他系統(tǒng)的集成問題,如果可能的話,本系統(tǒng)可以嵌入到學校網(wǎng)絡協(xié)同辦公平臺之中;
這些都是在具體實施時應該注意的,也關(guān)系著基于數(shù)據(jù)挖掘的教育管理決策支持系統(tǒng)模型成功與否。
五、展望未來
隨著信息化不斷向前發(fā)展,基于數(shù)據(jù)挖掘的教育管理決策支持系統(tǒng)也將涵蓋人才培養(yǎng)、人力資源、教學評估、教育經(jīng)濟等幾個大的方面,也將逐漸發(fā)展為教育管理數(shù)據(jù)挖掘應用平臺?;跀?shù)據(jù)挖掘的教育管理決策支持系統(tǒng)也將發(fā)揮越來越重要的角色。
參考文獻:
[1][加]Jiawei Han,Micheline Kamber(著)范明,孟小峰等譯 《數(shù)據(jù)挖掘概念與技術(shù)》 北京機械工業(yè)出版社
[2][中國]張堯庭,謝邦昌,朱世武(編)《數(shù)據(jù)采掘入門及應用――從統(tǒng)計技術(shù)看數(shù)據(jù)采掘》中國統(tǒng)計出版社
[3][美]John W.Fronckowiak,David J.Helda(著)全剛,楊領(lǐng)峰,申耀軍,張濤(譯)高長劍(審校)《MS VB6.0 數(shù)據(jù)庫編程大全》電子工業(yè)出版社