數(shù)據(jù)挖掘課程實(shí)踐教學(xué)探索

時(shí)間:2022-10-10 10:57:41

導(dǎo)語:數(shù)據(jù)挖掘課程實(shí)踐教學(xué)探索一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘課程實(shí)踐教學(xué)探索

摘要:在大數(shù)據(jù)背景下,需要培養(yǎng)適應(yīng)時(shí)展需要的具有較強(qiáng)實(shí)踐能力的應(yīng)用型數(shù)據(jù)分析挖掘人才。文章以信息與計(jì)算科學(xué)專業(yè)為例,探索改革數(shù)據(jù)挖掘課程實(shí)踐教學(xué)內(nèi)容和方式等,著重培養(yǎng)學(xué)生數(shù)據(jù)分析和挖掘的實(shí)踐能力,并為完善實(shí)踐教學(xué)提出了建議。

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;實(shí)踐教學(xué)

隨著大數(shù)據(jù)時(shí)代的到來,大數(shù)據(jù)的分析和挖掘越來越被各個(gè)領(lǐng)域所重視。在《中國大數(shù)據(jù)發(fā)展調(diào)查報(bào)告(2018年)》中指出,“2017年中國大數(shù)據(jù)產(chǎn)業(yè)總體規(guī)模為4700億元人民幣,同比增長30%;2017年大數(shù)據(jù)核心產(chǎn)業(yè)規(guī)模236億元人民幣,增速達(dá)到40.5%,預(yù)計(jì)2018-2020年增速將保持在30%以上”,具報(bào)告指出接近2/3的企業(yè)已經(jīng)成立了相關(guān)的數(shù)據(jù)分析部門,近40%的企業(yè)已經(jīng)應(yīng)用了大數(shù)據(jù)??梢钥闯龃髷?shù)據(jù)的技術(shù)與應(yīng)用已經(jīng)深入到我們的社會(huì)生活中。隨著大數(shù)據(jù)技術(shù)在各行業(yè)的應(yīng)用,對(duì)大數(shù)據(jù)技術(shù)人才的需求也增長迅速,大數(shù)據(jù)方向的職業(yè)前景普遍看好,然而掌握大數(shù)據(jù)分析和挖掘技術(shù)的人才稀缺,因此培養(yǎng)有應(yīng)用能力、創(chuàng)新精神的合格的大數(shù)據(jù)分析和挖掘人才成為緊迫的問題。

一、大數(shù)據(jù)時(shí)代下對(duì)數(shù)據(jù)挖掘人才培養(yǎng)的特點(diǎn)

(一)多學(xué)科交叉。數(shù)據(jù)挖掘是一門多學(xué)科交叉的課程,涉及到的學(xué)科有:數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)。需要學(xué)生掌握統(tǒng)計(jì)分析的理論和方法、數(shù)學(xué)建模和計(jì)算機(jī)編程的能力、數(shù)據(jù)的收集、存儲(chǔ)和處理的能力。大部分的企業(yè)要求至少熟練掌握一種編程語言,如Java,C++,Python或R語言;至少掌握一種數(shù)據(jù)庫技術(shù),如MySql、Oracle、SQLServer等。由于大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘是多學(xué)科、多種應(yīng)用技術(shù)的融合,因此給人才培養(yǎng)提出了新的要求,如何將各學(xué)科和技術(shù)有機(jī)的融合到課程中,如何讓學(xué)生將各學(xué)科的內(nèi)容應(yīng)用到數(shù)據(jù)挖掘的理論和實(shí)踐當(dāng)中。(二)大數(shù)據(jù)時(shí)代需要應(yīng)用型人才。大數(shù)據(jù)相關(guān)技術(shù)目前正處在落地應(yīng)用的重要階段,與大數(shù)據(jù)研發(fā)初期需要大量的中高端人才不同,在落地應(yīng)用階段則需要大量的應(yīng)用型人才,這些應(yīng)用型人才需要把大數(shù)據(jù)技術(shù)落地到廣大的傳統(tǒng)行業(yè)中。大數(shù)據(jù)人才培養(yǎng)需要有真實(shí)的大數(shù)據(jù)環(huán)境,在高校的傳統(tǒng)培養(yǎng)模式下,人才培養(yǎng)過程缺少在真實(shí)的大數(shù)據(jù)環(huán)境下的實(shí)踐,這正是當(dāng)前大數(shù)據(jù)人才培養(yǎng)缺少的環(huán)節(jié)。(三)大數(shù)據(jù)教育要結(jié)合行業(yè)特征。未來隨著大數(shù)據(jù)與傳統(tǒng)行業(yè)的結(jié)合不斷深入,大數(shù)據(jù)教育將進(jìn)一步結(jié)合具體的行業(yè)特征,優(yōu)秀的數(shù)據(jù)分析人才不僅要有扎實(shí)的理論基礎(chǔ),還要熟悉相關(guān)行業(yè)和相關(guān)業(yè)務(wù)的需求。而目前,高校培養(yǎng)的學(xué)生以理論教學(xué)為主,注重課堂教學(xué),在工程實(shí)踐方面非常缺乏,缺少相關(guān)的工程項(xiàng)目經(jīng)驗(yàn)。而具備行業(yè)背景知識(shí)的大數(shù)據(jù)人才將受到企業(yè)的歡迎,因?yàn)樾袠I(yè)知識(shí)將是大數(shù)據(jù)落地應(yīng)用的重要環(huán)節(jié)。(四)教學(xué)模式需要改變。大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析與挖掘需要學(xué)生具有強(qiáng)的動(dòng)手能力,對(duì)數(shù)據(jù)的整理分析能力,對(duì)數(shù)據(jù)挖掘問題的分析能力,數(shù)據(jù)挖掘建模的能力,模型評(píng)價(jià)和應(yīng)用的能力,這些能力的培養(yǎng)都離不開實(shí)踐教學(xué),而現(xiàn)在主要采用的教學(xué)模式還是以課堂和教師為中心的教學(xué)模式,無法調(diào)動(dòng)學(xué)生的學(xué)習(xí)積極性,無法促進(jìn)學(xué)生自主學(xué)習(xí)能力的培養(yǎng)。如何將理論學(xué)習(xí)和實(shí)踐學(xué)習(xí)有機(jī)的融合在一起,而不是教學(xué)過程中兩個(gè)分開的部分,需要在教學(xué)改革中進(jìn)一步的想辦法解決。

二、數(shù)據(jù)挖掘?qū)嵺`教學(xué)探索

大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘,在人才培養(yǎng)方面,應(yīng)該以培養(yǎng)學(xué)生掌握應(yīng)用數(shù)據(jù)挖掘算法解決真實(shí)數(shù)據(jù)分析任務(wù)為主,強(qiáng)調(diào)在課程建設(shè)中,重視數(shù)據(jù)挖掘?qū)嵺`教學(xué),以實(shí)踐教學(xué)帶動(dòng)理論教學(xué),通過引入實(shí)際問題,將學(xué)生直接代入到真實(shí)的數(shù)據(jù)挖掘分析任務(wù)中,激發(fā)學(xué)生的學(xué)習(xí)興趣。(一)教學(xué)計(jì)劃。數(shù)據(jù)挖掘不僅實(shí)踐性強(qiáng),而且還是一門多個(gè)學(xué)科交叉的課程。開設(shè)該課程之前需要開設(shè)的課程有:高等數(shù)學(xué)、概率論與數(shù)理統(tǒng)計(jì)、多元統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫原理、數(shù)據(jù)結(jié)構(gòu)、編程語言(C++或Java或Python)等課程。我院開設(shè)的數(shù)據(jù)挖掘課程,總課時(shí)68課時(shí),理論課學(xué)時(shí)34學(xué)時(shí),實(shí)驗(yàn)課學(xué)時(shí)34學(xué)時(shí),所有課程全部安排在機(jī)房上課。為了調(diào)動(dòng)學(xué)生的學(xué)習(xí)動(dòng)力和學(xué)習(xí)積極性,促進(jìn)學(xué)生自主學(xué)習(xí)和協(xié)作學(xué)習(xí),本課程采用混合教學(xué)方式,基于超星泛雅網(wǎng)絡(luò)教學(xué)平臺(tái)和手機(jī)學(xué)習(xí)通(APP)實(shí)現(xiàn)混合教學(xué)方式。課程的開展主要分二個(gè)部分:一,設(shè)置課前學(xué)習(xí)任務(wù)單,需要學(xué)生在課前完成觀看知識(shí)點(diǎn)視頻,章節(jié)測(cè)試和網(wǎng)上討論的內(nèi)容;二,翻轉(zhuǎn)課堂,在課堂教學(xué)過程中,主要完成知識(shí)的內(nèi)化和對(duì)算法分析和評(píng)價(jià)內(nèi)容,采用小組討論,課堂練習(xí),實(shí)驗(yàn)報(bào)告,小組展示,提問等方式。最后提交一份實(shí)驗(yàn)報(bào)告,實(shí)驗(yàn)報(bào)告中布置一份真實(shí)的數(shù)據(jù)挖掘問題。需要學(xué)生通過所學(xué)的數(shù)據(jù)挖掘算法給出具體的求解過程,按數(shù)據(jù)挖掘的基本流程完成一個(gè)真實(shí)問題的數(shù)據(jù)挖掘過程。教學(xué)章節(jié)安排如表1。(二)建設(shè)網(wǎng)上教學(xué)資源,充分利用信息化教學(xué)手段。利用“互聯(lián)網(wǎng)+”的教學(xué)方式,建設(shè)網(wǎng)上教學(xué)資源,采用混合學(xué)習(xí)的方式,在線教學(xué)平臺(tái),提供豐富的教學(xué)資源,如:教學(xué)視頻、課程講義、章節(jié)測(cè)試、拓展資料、答疑討論等。由于數(shù)據(jù)挖掘?qū)嵺`主要應(yīng)用python語言,而學(xué)生普遍對(duì)python語言不是很熟悉,但前期課程中已經(jīng)開設(shè)了Java或C++編程語言設(shè)計(jì)的課程,學(xué)生已經(jīng)有了一定程序設(shè)計(jì)基礎(chǔ),因此很適合通過在線學(xué)習(xí)的方式快速了解和掌握python語言的基礎(chǔ)語法。因此課程的第一章python基礎(chǔ)語法和第二章pandas數(shù)據(jù)分析,開展網(wǎng)上教學(xué)的方式,將python基礎(chǔ)語法和pandas庫的教學(xué)視頻放在網(wǎng)絡(luò)課程中,方便學(xué)生用課下時(shí)間,自己安排時(shí)間學(xué)習(xí),而且可以反復(fù)觀看。而且通過網(wǎng)上討論和答疑及時(shí)發(fā)現(xiàn)學(xué)生學(xué)習(xí)中遇到的問題和不足,接下來在課堂教學(xué)過程進(jìn)行補(bǔ)充。(三)采用小組協(xié)作學(xué)習(xí)和項(xiàng)目式學(xué)習(xí)的教學(xué)模式。由于采用了混合學(xué)習(xí)的教學(xué)方式,以學(xué)生為中心,課堂上可以給學(xué)生充分的師生互動(dòng)和生生互動(dòng)時(shí)間,完成學(xué)生對(duì)知識(shí)的內(nèi)化過程,而此過程主要采用的小組協(xié)作學(xué)習(xí)的實(shí)踐教學(xué)方式。在課堂實(shí)驗(yàn)過程中,一般由3名學(xué)生組成一個(gè)學(xué)習(xí)小組,由教師提出具體問題和要求,通過小組討論、互相協(xié)作共同完成實(shí)驗(yàn)內(nèi)容,最后將討論結(jié)果提交到網(wǎng)絡(luò)教學(xué)平臺(tái),部分小組進(jìn)行成果展示和問題答疑。每章設(shè)置由真實(shí)問題背景的數(shù)據(jù)挖掘問題,采用項(xiàng)目式學(xué)習(xí)的教學(xué)模式,教師提出實(shí)驗(yàn)的問題和挖掘目標(biāo)要求,由學(xué)生根據(jù)實(shí)驗(yàn)問題和目標(biāo),安裝數(shù)據(jù)挖掘的基本過程進(jìn)行實(shí)驗(yàn),包括:數(shù)據(jù)收集,數(shù)據(jù)探索,數(shù)據(jù)預(yù)處理,模型的建立和訓(xùn)練,結(jié)果分析等,讓學(xué)生每次實(shí)驗(yàn)都完成一次小型的數(shù)據(jù)挖掘任務(wù),強(qiáng)化數(shù)據(jù)挖掘各個(gè)步驟的工作和要求。在實(shí)驗(yàn)過程中可以通過網(wǎng)絡(luò)教學(xué)平臺(tái)進(jìn)行交流和答疑。(四)通過實(shí)踐教學(xué)促進(jìn)算法理論的學(xué)習(xí)數(shù)據(jù)挖掘的算法理論非常豐富,而往往學(xué)生對(duì)于枯燥難懂的理論知識(shí)望而卻步,因此我們采用在具體的案例分析和實(shí)踐中設(shè)計(jì)一些問題,由這些問題引導(dǎo)學(xué)生進(jìn)一步探究算法的理論,并對(duì)各種算法進(jìn)行評(píng)價(jià)。由于在實(shí)踐中遇到了問題,所以使學(xué)生自覺的去對(duì)算法理論進(jìn)行更深入的學(xué)習(xí)和研究,同時(shí)有利于培養(yǎng)學(xué)生的創(chuàng)新思維和解決問題的能力。如在講授決策樹算法時(shí),大部分學(xué)生關(guān)注決策樹的生成過程,如ID3算法的步驟、數(shù)據(jù)集信息熵的計(jì)算、屬性的信息增益的計(jì)算等,而往往忽視算法對(duì)數(shù)據(jù)類型的要求,對(duì)算法的一些細(xì)節(jié)沒有注意。因此設(shè)計(jì)了一個(gè)“銀行產(chǎn)品營銷”案例,有部分學(xué)生沒有關(guān)注數(shù)據(jù)類型的問題,直接使用余額(balance)這個(gè)連續(xù)屬性進(jìn)行建模,得到了一顆奇怪的決策樹。然后展開小組討論,引導(dǎo)學(xué)生在建立決策樹模型中如何處理連續(xù)變量。通過具體的案例實(shí)踐,在問題中的分析、解決過程中,熟悉和掌握算法,培養(yǎng)了學(xué)生在實(shí)踐中分析、解決問題的能力。(五)考核評(píng)價(jià)的探索傳統(tǒng)的課程考核方式以期末考試和平均成績?yōu)橹?,然而一張?jiān)嚲頍o法體現(xiàn)學(xué)生掌握和應(yīng)用知識(shí)的水平,更無法體現(xiàn)是否掌握了分析和解決問題的能力。因此我們改變傳統(tǒng)的課程考核方式,首先針對(duì)數(shù)據(jù)挖掘課程的特點(diǎn),采用期末課程設(shè)計(jì)的方式,要求將本學(xué)期學(xué)習(xí)的數(shù)據(jù)挖掘算法(如,knn,決策樹,支持向量機(jī),聚類分析,關(guān)聯(lián)規(guī)則分析等算法)應(yīng)用到某個(gè)領(lǐng)域,對(duì)該領(lǐng)域的某個(gè)問題進(jìn)行數(shù)據(jù)分析和挖掘。數(shù)據(jù)可以是公開的數(shù)據(jù)集,也可以是網(wǎng)上自己爬取的數(shù)據(jù)等。要求所選問題有實(shí)際應(yīng)用的背景,有具體的分析步驟和算法程序,以數(shù)據(jù)挖掘分析報(bào)告的形式提交作品。其次將課程成績分為三個(gè)主要部分:期末課程設(shè)計(jì)占總成績40%;每次是實(shí)驗(yàn)報(bào)告成績占總成績的30%;網(wǎng)上學(xué)習(xí)和課堂討論與展示占總成績的30%。在成績的組成中,實(shí)踐教學(xué)成績的比例占了70%,突出考核學(xué)生實(shí)際應(yīng)用數(shù)據(jù)挖掘算法的能力、解決實(shí)際問題的能力,改變傳統(tǒng)的一張卷子評(píng)價(jià)學(xué)生的方式,讓考核能夠真正體現(xiàn)學(xué)生實(shí)際應(yīng)用能力??己朔绞降霓D(zhuǎn)變,也帶動(dòng)了學(xué)生學(xué)習(xí)重心的轉(zhuǎn)變,學(xué)生開始重視每次實(shí)驗(yàn)報(bào)告的完成,這樣將傳統(tǒng)的一次考核,變成了在平時(shí)多次的考核。使學(xué)生把功夫下在平時(shí),而不是只是期末考試前幾天才用心學(xué)習(xí)。

三、教學(xué)效果和反思

對(duì)信息與計(jì)算科學(xué)專業(yè)一個(gè)學(xué)期的實(shí)踐教學(xué)改革來看,通過學(xué)期末的問卷調(diào)查得到了一些反饋情況,課程總體滿意率達(dá)91%;有81%的學(xué)生認(rèn)同“課程開展的實(shí)踐教學(xué)讓我的自學(xué)能力有所提升;”在哪些教學(xué)資源和方式對(duì)你學(xué)習(xí)幫助較大中85%學(xué)生選擇了“完成實(shí)驗(yàn)報(bào)告”,80%的學(xué)生選擇了網(wǎng)絡(luò)視頻和章節(jié)測(cè)試的內(nèi)容。問卷結(jié)果顯示學(xué)生對(duì)本次實(shí)踐教學(xué)的改革比較適應(yīng),提高了他們應(yīng)用知識(shí)的能力。部分同學(xué)利用課余時(shí)間參加數(shù)據(jù)挖掘競賽,如kaggle,DataCase,“泰迪杯”等,并取得了多項(xiàng)一等獎(jiǎng)。但是在教學(xué)過程中也反應(yīng)出了一些問題。如學(xué)生普遍對(duì)Python語言掌握的情況不好,在課程初期學(xué)生反應(yīng)實(shí)驗(yàn)難度過大,希望能夠講解更多python語言編程的內(nèi)容。在實(shí)踐教學(xué)過程中,有部分學(xué)生基礎(chǔ)不好,自主學(xué)習(xí)能力不足,實(shí)踐內(nèi)容對(duì)其難度過大,而出現(xiàn)學(xué)習(xí)倦怠情況,還有學(xué)生過于依賴小組或其他同學(xué)沒有充分的調(diào)動(dòng)學(xué)習(xí)積極性。因此在接下來的教學(xué)中,我們將繼續(xù)探索更適合的實(shí)踐教學(xué)方案,為學(xué)生提供更加個(gè)性化的教學(xué)實(shí)踐資源,使不同基礎(chǔ)和特點(diǎn)的學(xué)生都能夠積極參與到實(shí)踐教學(xué)中。

四、結(jié)束語

數(shù)據(jù)挖掘課程內(nèi)容豐富、涉及的學(xué)科多、發(fā)展更新快,要求學(xué)生有較高的應(yīng)用能力,因此傳統(tǒng)的教學(xué)方式無法滿足要求。在數(shù)據(jù)挖掘?qū)嵺`教學(xué)方面,為了適應(yīng)大數(shù)據(jù)時(shí)代對(duì)應(yīng)用型數(shù)據(jù)分析和挖掘人才的需求,本文基于混合學(xué)習(xí),項(xiàng)目學(xué)習(xí),小組學(xué)習(xí)等實(shí)踐教學(xué)方式,讓學(xué)生在具體的實(shí)際問題的分析和解決中學(xué)習(xí),通過不同方式的實(shí)踐教學(xué),使學(xué)生能夠更好的掌握基礎(chǔ)理論知識(shí),并能將理論與實(shí)踐緊密聯(lián)系起來,提高解決實(shí)際數(shù)據(jù)挖掘問題的能力。

參考文獻(xiàn):

[1]姚力,朱龍飛,崔晨.大數(shù)據(jù)時(shí)代數(shù)據(jù)科學(xué)課程建設(shè)與人才培養(yǎng)的探索[M].計(jì)算機(jī)時(shí)代,2018(11):87-93.

[2]JiaweiHan,MichelineKamber,JianPei,等.數(shù)據(jù)挖掘概念與技術(shù)(第3版)[M].機(jī)械工業(yè)出版社,2012.

[3]施達(dá),楊晉浩,張志強(qiáng).數(shù)據(jù)工程類本科人才培養(yǎng)體系的探索與實(shí)踐[J].成都大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2017(1):112-117.

[4]譚磊.大數(shù)據(jù)挖掘[M].電子工業(yè)出版社,2013.[5]張燕.大數(shù)據(jù)背景下的數(shù)據(jù)挖掘課程教學(xué)新思考[J].計(jì)算機(jī)時(shí)代,2014(4):59-61.

[6]王青梅,趙革.國內(nèi)外案例教學(xué)法研究綜述[J].寧波大學(xué)學(xué)報(bào)(教育科學(xué)版),2009,31(4):7-11.

作者:劉波 蔡燕斯 鐘少丹 單位:韓山師范學(xué)院