學(xué)生管理論壇文本挖掘分析

時(shí)間:2022-07-12 11:11:37

導(dǎo)語(yǔ):學(xué)生管理論壇文本挖掘分析一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。

學(xué)生管理論壇文本挖掘分析

摘要:文章針對(duì)學(xué)生管理論壇學(xué)習(xí)行為分析需求,基于自然語(yǔ)言處理技術(shù),利用scrapy爬蟲(chóng)框架對(duì)中國(guó)繼教網(wǎng)初中數(shù)學(xué)學(xué)生管理論壇進(jìn)行文本數(shù)據(jù)挖掘,開(kāi)展機(jī)器學(xué)習(xí)環(huán)境下的文本挖掘學(xué)生學(xué)習(xí)問(wèn)題的深入分析。利用論壇師生學(xué)習(xí)數(shù)據(jù)信息,探討數(shù)據(jù)挖掘在數(shù)學(xué)學(xué)習(xí)論壇中具體應(yīng)用方法,著重針對(duì)文本數(shù)據(jù)建立LDA模型、聚類(lèi)分析,梳理教學(xué)過(guò)程中出現(xiàn)的高頻詞,幫助教育者針對(duì)性處理教育問(wèn)題。

關(guān)鍵詞:學(xué)習(xí)論壇;NLP;文本分析

一、引言

“互聯(lián)網(wǎng)+”、人工智能、大數(shù)據(jù)、機(jī)器學(xué)習(xí)等技術(shù)應(yīng)用的快速發(fā)展,教育學(xué)者積極探索信息社會(huì)如何更好地新型互聯(lián)網(wǎng)技術(shù)運(yùn)用于教育教學(xué),將教育帶入到一個(gè)全新的智能化大數(shù)據(jù)時(shí)代。關(guān)于文本數(shù)據(jù)挖掘分析的探索,本質(zhì)是自然語(yǔ)言處理(NaturalLanguageProcessing,NLP)過(guò)程。NLP是將無(wú)結(jié)構(gòu)的自然語(yǔ)言轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)自然語(yǔ)言,便于計(jì)算機(jī)的理解、存儲(chǔ)和管理[1]。本文以中國(guó)繼教網(wǎng)初中數(shù)學(xué)論壇學(xué)習(xí)文本為數(shù)據(jù)源,使用NLP中TF-IDF算法衡量出現(xiàn)單詞的關(guān)鍵性并用于后續(xù)聚類(lèi)分析,使用LDA抽取文檔主題,使用word2vec分析詞條相似度,為教學(xué)者提供教育問(wèn)題內(nèi)容參考,針對(duì)性解決學(xué)生主要問(wèn)題。

二、理論依據(jù)

(一)TF-IDF算法。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估單詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。如果某個(gè)單詞在一篇文檔中出現(xiàn)頻率高,并且在其他文章中出現(xiàn)的頻率低,則認(rèn)為這個(gè)單詞有很好的類(lèi)別區(qū)分能力[2]。頻詞(Term-Frequency,TF),衡量一個(gè)term在一篇文檔中出現(xiàn)的頻繁次數(shù)。逆文檔頻率(InverseDocumentFrequency,IDF),是一個(gè)詞語(yǔ)普遍重要性的度量。(二)Word2vec模型。Word2vec模型是由Google的TomasMikolov團(tuán)隊(duì)提出并實(shí)現(xiàn)的分布式詞向量表示模型,普遍應(yīng)用于自然語(yǔ)言處理(NLP)。該模型可以在較短的時(shí)間內(nèi),從大規(guī)模的語(yǔ)料庫(kù)中學(xué)習(xí)到高質(zhì)量、多角度表達(dá)的詞向量[3]。一篇文檔可以通過(guò)這種模型得到該文檔中每個(gè)詞的低維度(100-500)向量表達(dá),從而可以方便的計(jì)算詞與詞之間的語(yǔ)義相似度。(三)LDA主題模型。LDA模型認(rèn)為一篇文章的每個(gè)詞都是通過(guò)“以一定概率選擇了某個(gè)主題,并從這個(gè)主題中以一定概率選擇某個(gè)詞語(yǔ)”這樣一個(gè)過(guò)程得到。文檔到主題服從多項(xiàng)式分布,主題到詞服從多項(xiàng)式分布。LDA可以用來(lái)識(shí)別大規(guī)模長(zhǎng)度文檔集或語(yǔ)料庫(kù)中潛藏的主題信息[4]。

三、基于自然語(yǔ)言處理技術(shù)的學(xué)生管理論壇的文本挖掘過(guò)程

(一)文本獲取。本文通過(guò)Scrapy爬蟲(chóng)框架,從中國(guó)繼教網(wǎng)初中數(shù)學(xué)學(xué)生管理論壇下收集文本數(shù)據(jù),包括文章標(biāo)題、文章發(fā)表時(shí)間、文章閱讀量、文章全部?jī)?nèi)容??梢詫⒅袊?guó)繼教網(wǎng)初中數(shù)學(xué)學(xué)生管理論壇從最早2014年7月到2018年10月4129篇文章扒取下來(lái)。數(shù)據(jù)保存MongoDB數(shù)據(jù)庫(kù)中,最終以Excel表格導(dǎo)出。(二)文本預(yù)處理。常見(jiàn)的論壇文本預(yù)處理有去除缺失值,刪除重復(fù)值,剔除異常值,中文jieba分詞、去停用詞處理、詞頻統(tǒng)計(jì)等數(shù)據(jù)預(yù)處理工作。其中停用詞處理中,本文還添加了一些在教育教學(xué)中常出現(xiàn)的但是不是關(guān)鍵詞的高頻詞(學(xué)生,教師,老師等),構(gòu)成了自定義停用詞表。經(jīng)過(guò)上述預(yù)處理操作,最終得到了1400多條數(shù)據(jù)。(三)標(biāo)題詞云。經(jīng)過(guò)預(yù)處理的數(shù)據(jù),基本上符合機(jī)器處理的標(biāo)準(zhǔn),但是預(yù)處理得到的數(shù)據(jù)中,依然摻雜著一些游離的、無(wú)法形成主題的數(shù)據(jù)內(nèi)容。而一篇文章的標(biāo)題基本都附帶著一些關(guān)鍵詞和主題詞。用Python相關(guān)庫(kù)進(jìn)行詞頻統(tǒng)計(jì)和詞云展示,初步分析所有文章談?wù)摰闹黝}。利用高頻詞查找原始Excel文檔標(biāo)題,利用Excel標(biāo)題篩選功能,找出包含這些高頻詞的所有標(biāo)題。從標(biāo)題高頻詞分布中可以看出,老師們寫(xiě)文章的關(guān)注點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:1.學(xué)生培養(yǎng)工作原文檔中檢索出130條標(biāo)題包含“培養(yǎng)”的標(biāo)題,發(fā)現(xiàn)以下內(nèi)容是培養(yǎng)學(xué)生的關(guān)注點(diǎn)。比如“怎樣培養(yǎng)學(xué)生學(xué)習(xí)數(shù)學(xué)的興趣?”“怎樣培養(yǎng)得力的班干部?”從中可以得出學(xué)生培養(yǎng)工作可以從培養(yǎng)學(xué)習(xí)興趣、培養(yǎng)知識(shí)能力、培養(yǎng)良好習(xí)慣、培養(yǎng)得力學(xué)生、培養(yǎng)自主思維以及培養(yǎng)自信等積極人格情感這幾個(gè)方面入手。2.后進(jìn)生(差生)和學(xué)困生“后進(jìn)生”是對(duì)“差生”的新認(rèn)知,過(guò)去由于認(rèn)知錯(cuò)誤把他們叫作差生,現(xiàn)在稱(chēng)為后進(jìn)生,即“后來(lái)進(jìn)步”之意[6]。學(xué)困生是那些學(xué)習(xí)成績(jī)不理想,自律能力有限的學(xué)生。原文檔中檢索出173條標(biāo)題包含“后進(jìn)生”或“差生”的標(biāo)題,比較集中的標(biāo)題有“后進(jìn)生轉(zhuǎn)化”“轉(zhuǎn)化差生的工作”。從中可以看出后進(jìn)生和學(xué)困生如何轉(zhuǎn)化是比較尖銳的問(wèn)題。(四)基于Word2vec詞向量的關(guān)聯(lián)詞。提取Word2vec詞向量算法可以將詞表示成向量,向量每一維表示某一方面特征,通過(guò)計(jì)算兩個(gè)詞條向量的相似度,提取出主題詞的若干個(gè)關(guān)聯(lián)詞。運(yùn)用Word2vec算法提取上述歸納出關(guān)鍵主題前20個(gè)關(guān)聯(lián)詞,進(jìn)行屬性相關(guān)詞的拓展。在培養(yǎng)學(xué)生工作中,主要是教會(huì)學(xué)生自我教育,培養(yǎng)他們的創(chuàng)新能力和思維能力;培養(yǎng)學(xué)生數(shù)學(xué)興趣從激發(fā)他們的求知欲,提高積極主動(dòng)性,增強(qiáng)學(xué)習(xí)動(dòng)機(jī)入手;自學(xué)能力較強(qiáng)的學(xué)生學(xué)習(xí)習(xí)慣也自然好,培養(yǎng)閱讀習(xí)慣要做筆記和課前預(yù)習(xí),做到“心到、眼到、口到”。在差生詞條中,“學(xué)困生”“差生”“后進(jìn)生”詞條相似度很強(qiáng)。同時(shí)和“優(yōu)生”“優(yōu)等生”也緊密聯(lián)系,這說(shuō)明了當(dāng)文章一句話里出現(xiàn)了“差生”這樣單詞時(shí)候往往伴隨著這句話里面或者前后文會(huì)出現(xiàn)“優(yōu)生”等同義詞字眼。(五)LDA抽取文檔主題。提取LDA模型主題數(shù)是一個(gè)超參數(shù),本文設(shè)為10個(gè),即認(rèn)為1400多篇文章都是在10個(gè)主題。通過(guò)建立LDA模型,得到了10組主題詞,為學(xué)生成長(zhǎng)、數(shù)學(xué)能力、初中幾何、班級(jí)管理、情感溝通、思維培養(yǎng)、課堂教學(xué)、差生轉(zhuǎn)化、習(xí)慣培養(yǎng)、青春早戀??梢詮腖DA提取的最相關(guān)的前20個(gè)單詞,通過(guò)詞序的排列組合生成有解釋性的句子再進(jìn)一步深化主題詞的意義。(六)KMeans文檔聚類(lèi)分析。經(jīng)過(guò)KMeans聚類(lèi)容得出每個(gè)類(lèi)別具體的文章數(shù)量,但是聚成一類(lèi)的類(lèi)別命名需要去分析查看原始文本標(biāo)題和內(nèi)容。經(jīng)過(guò)仔細(xì)觀察統(tǒng)計(jì)得出了11個(gè)命名類(lèi)別,頻數(shù)從高到低依次是:學(xué)生發(fā)展、課堂教學(xué)、師生交往、班級(jí)管理、數(shù)學(xué)能力、后進(jìn)生+學(xué)困生轉(zhuǎn)化、關(guān)愛(ài)差生、學(xué)習(xí)興趣、學(xué)生手機(jī)??梢?jiàn)教師的主要工作中心和反映問(wèn)題集中體現(xiàn)在學(xué)生發(fā)展、課堂教學(xué)、師生交往等日常學(xué)校教育行為。

四、小結(jié)

本文運(yùn)用自然語(yǔ)言處理(NLP)中常見(jiàn)的文本數(shù)據(jù)預(yù)處理技術(shù)及關(guān)鍵詞頻(TF-IDF)矩陣、Word2vec詞條相似度,LDA主題模型和KMeans文檔聚類(lèi),主要開(kāi)展大數(shù)據(jù)環(huán)境下的文本主要信息挖掘和探討。上述每一步文本分析做法得出的結(jié)果都有很好的可解釋性,能夠在1400多篇中等規(guī)模文章中定位到黃金主題和與之相關(guān)的延展信息,這體現(xiàn)了數(shù)據(jù)挖掘的意義。

作者:李光明 潘以鋒 周宗萍 單位:上海師范大學(xué)教育技術(shù)學(xué)系