近鄰傳播貧困生評(píng)定模型案例研究
時(shí)間:2022-12-09 04:52:55
導(dǎo)語(yǔ):近鄰傳播貧困生評(píng)定模型案例研究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:準(zhǔn)確認(rèn)定貧困學(xué)生資格是關(guān)系到資助資源流向和教育公平的實(shí)現(xiàn),在教學(xué)管理中,校園卡消費(fèi)數(shù)據(jù)的準(zhǔn)確聚類對(duì)于貧困生評(píng)定工作具有重要參考價(jià)值。近鄰傳播對(duì)于離群點(diǎn)不敏感,也能保持模型的較好魯棒性的特點(diǎn)。將近鄰傳播算法應(yīng)用到校園卡消費(fèi)數(shù)據(jù)的聚類,實(shí)現(xiàn)學(xué)生消費(fèi)能力的分類。實(shí)例分析的結(jié)果表明,該算法聚類結(jié)可為貧困生評(píng)定提供科學(xué)的參考依據(jù)。
關(guān)鍵詞:近鄰傳播;聚類算法;評(píng)估模型;案例研究
1概述
高校貧困生分級(jí)認(rèn)定就是從在校學(xué)生集合中選擇經(jīng)濟(jì)困難的學(xué)生子集,并判別其經(jīng)濟(jì)困難級(jí)別。準(zhǔn)確認(rèn)定貧困學(xué)生資格是高校合理、公平分配資助資源的先決條件,是高校學(xué)生獲得國(guó)家困難補(bǔ)助、社會(huì)資助及助學(xué)貸款的重要依據(jù)[1]。目前國(guó)內(nèi)外的研究主要以家庭經(jīng)濟(jì)狀況調(diào)查作為貧困生認(rèn)定的主要手段。代祖華等[2]利用層次分析法與案例推理原理建構(gòu)高校貧困生分級(jí)認(rèn)定模型,采用向量定義法,給出了案例庫(kù)和貧困生分級(jí)認(rèn)定問題的形式化描述,研究了以案例檢索為基礎(chǔ)的貧困生分級(jí)認(rèn)定算法。畢鶴霞等[1]運(yùn)用“模糊綜合評(píng)判法與模糊層次分析法的集成”,依據(jù)層次分析法和加權(quán)平均法分別對(duì)致貧因素一級(jí)指標(biāo)和二級(jí)指標(biāo)進(jìn)行權(quán)重測(cè)算,并根據(jù)拋物線型隸屬函數(shù)測(cè)算底層因素的隸屬度,構(gòu)建貧困程度綜合判別模型。以家庭經(jīng)濟(jì)狀況調(diào)查數(shù)據(jù)為基礎(chǔ)的研究存在調(diào)查指標(biāo)有差異大等缺陷,而且,實(shí)際操作中,由于學(xué)生自尊心強(qiáng),很多需要學(xué)校補(bǔ)助的學(xué)生不愿意公開家庭資料,造成學(xué)校收集的貧困生情況存在缺漏或不真實(shí)的情況。學(xué)生校園卡消費(fèi)記錄對(duì)分析學(xué)生的行為有很大的價(jià)值。電子科技大學(xué)從3萬(wàn)名在校生中,采集到了2億多條包含學(xué)生選課記錄、進(jìn)出圖書館、寢室以及食堂用餐、超市購(gòu)物等行為數(shù)據(jù),通過對(duì)不同的校園一卡通記錄進(jìn)行分析,發(fā)現(xiàn)一個(gè)學(xué)生在學(xué)校有多少親密朋友,通過這個(gè)課題找到了800多個(gè)校園中最孤獨(dú)的人。周口師范學(xué)院建立了較為詳細(xì)的大數(shù)據(jù)分析系統(tǒng),能夠?qū)崿F(xiàn)對(duì)學(xué)生出勤、就餐、圖書閱讀等方面的大數(shù)據(jù)分析。南京理工大學(xué)通過數(shù)據(jù)分析,每個(gè)月在食堂吃飯超過60頓、一個(gè)月總消費(fèi)不足420元的,被列為受資助對(duì)象,采取直接將補(bǔ)貼款打入學(xué)生飯卡的方式,學(xué)生無需填表申請(qǐng),不用審核。通過學(xué)生平時(shí)校園卡的花費(fèi)情況,運(yùn)用數(shù)據(jù)挖掘的手段,找出真正在基礎(chǔ)生活上比較困難的同學(xué),并向?qū)W生發(fā)放相關(guān)補(bǔ)助。通過近鄰傳播算法將學(xué)生群體進(jìn)行分類,確定學(xué)生的消費(fèi)類型,在一定程度上真實(shí)地反映了學(xué)生的經(jīng)濟(jì)狀況,而且不依賴學(xué)生調(diào)查數(shù)據(jù),能夠客觀地反映學(xué)生的經(jīng)濟(jì)狀況,從而輔助學(xué)校決策層制定相應(yīng)的補(bǔ)助方案。
2近鄰傳播算法
近鄰傳播(affinitypropagation,AP)算法是最近發(fā)展的一種采用最大和置信傳播[3]的聚類算法[4]。輸入樣本點(diǎn)之間的相似性,它產(chǎn)生一個(gè)中心點(diǎn)集合及將每個(gè)樣本點(diǎn)分配給最合適的中心點(diǎn)。其中,中心點(diǎn)定義為最佳表達(dá)樣本點(diǎn)集合的代表性樣本點(diǎn)。發(fā)表于2007年Science雜志的文章[4]指出,近鄰傳播相比于其他基于中心點(diǎn)的聚類算法,具有3個(gè)優(yōu)勢(shì):(1)它是非常高效的;(2)它對(duì)初始化不敏感;(3)它能夠得到比k-中心點(diǎn)(k-center)算法[5]更優(yōu)的聚類結(jié)果。從而它被廣泛運(yùn)用于各種實(shí)際應(yīng)用場(chǎng)合,例如圖像、文本、生物信息學(xué)、人臉識(shí)別、基因發(fā)現(xiàn)、搜索最優(yōu)航線、碼書設(shè)計(jì)以及實(shí)物圖像識(shí)別等領(lǐng)域。由于近鄰傳播算法不是用均值做質(zhì)心計(jì)算規(guī)則,因此對(duì)于離群點(diǎn)和異常值不敏感,同時(shí)其初始值不敏感的特性也能保持模型的較好魯棒性[6]。給定N個(gè)樣本點(diǎn)的相似性矩陣,AP算法通過最大化下面的目標(biāo)函數(shù)來得到一個(gè)有效的類標(biāo)向量[7]。AP算法是一個(gè)建立在因子圖(factorgraph)上的最大和置信傳播算法[6]。如圖1所示,該算法的主要思想是,初始化階段將所有的樣本點(diǎn)當(dāng)成潛在的中心點(diǎn),然后不斷地在樣本點(diǎn)之間傳遞實(shí)數(shù)值消息,直至產(chǎn)生高質(zhì)量的中心點(diǎn)。如圖1所示,其中兩種類型的消息分別是:一種是從樣本點(diǎn)i發(fā)送到候選中心點(diǎn)k,用于反映樣本點(diǎn)k能夠作為樣本點(diǎn)i的中心點(diǎn)的累積置信度,記為r(i,k);另一種是從候選中心點(diǎn)k發(fā)送到樣本點(diǎn)i,用于反映樣本點(diǎn)i選擇樣本點(diǎn)k作為中心點(diǎn)的累積置信度,記為a(i,k)。這兩種消息都初始化為0,并分別按照如下的方式不斷迭代更新:直至這些消息的值收斂到不再改變?yōu)橹?。最終的類標(biāo)向量可以通過計(jì)算得到。
3案例分析
實(shí)驗(yàn)都運(yùn)行在一個(gè)移動(dòng)圖形工作站,基本配置為:64位Fedora操作系統(tǒng),Intel(R)Corei7-6500U2.50GHz處理器,32GB內(nèi)存,軟件環(huán)境使用Anaconda5.1,Python3.6,算法基于Scikit-learn框架實(shí)現(xiàn)。采集了某高校4個(gè)校區(qū)共23112個(gè)學(xué)生在4個(gè)月(122天)內(nèi)的消費(fèi)記錄,共計(jì)5572316條飯?zhí)玫腜OS機(jī)刷卡記錄,記錄包含下面的字段:卡號(hào)、學(xué)號(hào)、姓名、飯?zhí)妹Q、POS機(jī)號(hào)、入賬時(shí)間、金額。3.1數(shù)據(jù)分析采集到的數(shù)據(jù)是學(xué)生每一次在飯?zhí)盟⒖ㄓ涗洠瑪?shù)據(jù)來源比較單一,原始數(shù)據(jù)不能直觀地反映學(xué)生在飯?zhí)玫南M(fèi)水平。因此,按照食堂的時(shí)間段將學(xué)生的打卡時(shí)間分為早餐、午餐、晚餐和宵夜,不在這些時(shí)間范圍內(nèi)的打卡記為其他時(shí)間消費(fèi),并分別計(jì)算在這5個(gè)時(shí)間段內(nèi)學(xué)生消費(fèi)的均值、消費(fèi)總次數(shù)和消費(fèi)的標(biāo)準(zhǔn)差。通過統(tǒng)計(jì)學(xué)生人均吃早、午、晚餐的天數(shù),發(fā)現(xiàn)在4個(gè)月中,絕大多數(shù)同學(xué)早午晚3餐在飯?zhí)贸燥埖奶鞌?shù)不足一半,可見學(xué)生外出吃飯或叫外賣的現(xiàn)象非常頻繁。如圖2所示。午餐是最能夠反映學(xué)生整體消費(fèi)水平的一餐飯,因?yàn)闇p肥的同學(xué)會(huì)更多選擇少吃晚餐,早餐又因?yàn)閷W(xué)生起床時(shí)間和吃飯時(shí)間難以確定而存在較大誤差,因此午餐就變成3餐中最具有參考價(jià)值的一餐。分析發(fā)現(xiàn)4個(gè)校區(qū)午餐消費(fèi)低于6元和6~9元之間的學(xué)生比例幾乎一致,這說明雖然每個(gè)校區(qū)的整體消費(fèi)可能存在偏差,但是生活貧困的學(xué)生的消費(fèi)水平幾乎是維持在6~9元之間的。觀察學(xué)生消費(fèi)在9~11元的比例和11~15元的比例,這部分學(xué)生絕大多數(shù)是在學(xué)校消費(fèi)水平普通的學(xué)生,最能夠反映飯?zhí)梦绮偷木鶅r(jià)。對(duì)比午餐和晚餐的消費(fèi)情況,午餐在9~11元和11~15元的比例在晚餐段有明顯的降低,而午餐在6元以下和6~9元的比例在晚餐時(shí)段則都存在不同程度的增長(zhǎng)。這說明更多的學(xué)生傾向于晚上吃更便宜的東西。宵夜的分布與早餐很類似,可見宵夜時(shí)段學(xué)生的選擇不是很多,或者說宵夜整體比較便宜。由于學(xué)校周邊外賣眾多,嚴(yán)重影響對(duì)學(xué)生消費(fèi)額的估計(jì)。校園食堂內(nèi)還有下午茶或者小超市,打卡記錄無法分辨學(xué)生是在飯?zhí)贸燥堖€是進(jìn)行額外的消費(fèi),我們難以直接根據(jù)學(xué)生花費(fèi)的總額或者均值來估計(jì)學(xué)生是否貧困,因此通過聚類的方法找出真正符合貧困生的消費(fèi)指標(biāo)。3.2劃分學(xué)生類型根據(jù)上述得到的學(xué)生的消費(fèi)情況,計(jì)算每?jī)蓚€(gè)學(xué)生之間的相似程度,如果兩個(gè)學(xué)生的消費(fèi)情況非常類似(比如幾乎每天都在飯?zhí)贸燥?,午晚餐消費(fèi)水平在6~9元,從不吃早餐和宵夜),那么就認(rèn)為這兩個(gè)學(xué)生是一個(gè)類別的。上述劃分學(xué)生類別的方法可以通過AP聚類算法來自動(dòng)完成,實(shí)驗(yàn)代碼使用Scikit-Learn[8]編寫。通過計(jì)算每?jī)蓚€(gè)學(xué)生之間的相似度和聚類后,將4個(gè)校區(qū)的學(xué)生分別分為86、229、161和231個(gè)類。分別記錄了4個(gè)校區(qū)的每一個(gè)學(xué)生類別中的學(xué)生名單和學(xué)生的消費(fèi)記錄。許多類別中的學(xué)生數(shù)量非常少,這樣的類別不具有代表性,不是我們需要的。篩選掉包含人數(shù)少的類別后,逐一分析每個(gè)類別的特性,總結(jié)出了8類有代表性的學(xué)生,并結(jié)合實(shí)際情況給出了下面的經(jīng)驗(yàn)性的學(xué)生類別劃分標(biāo)準(zhǔn),如表1所示。其中A類和B類學(xué)生是推薦的貧困生(名單),通過篩選條件保證了:(1)這批學(xué)生絕大多數(shù)時(shí)間是在飯?zhí)贸燥埍M管學(xué)校周邊外賣很多而且價(jià)格不貴,但是最便宜的外賣也會(huì)在10元以上起送,真正貧困的學(xué)生仍然會(huì)更多地選擇在飯?zhí)孟M(fèi)。(2)消費(fèi)水平在每餐飯9元以下(校平均午晚餐消費(fèi)是在10~11塊)(3)午晚餐的標(biāo)準(zhǔn)差限制在3.5元標(biāo)準(zhǔn)差是圍繞著每餐飯的平均值的一個(gè)波動(dòng),它約束了學(xué)生每餐飯之間的差異不會(huì)太大。這樣就篩選出了部分大多數(shù)時(shí)間只是在飯?zhí)觅I瓶飲料的學(xué)生,他們每天都在飯?zhí)糜行☆~的消費(fèi),平均消費(fèi)水很低,在飯?zhí)孟M(fèi)的次數(shù)也很高,但是這批學(xué)生往往每次消費(fèi)差異比較大。而貧困生則會(huì)盡量保持一個(gè)比較低的水平維持,因此標(biāo)準(zhǔn)差會(huì)非常小。(4)早餐的均值在5元以下通過對(duì)早餐的限制來篩選減肥的學(xué)生,這群學(xué)生往往也吃得非常少,而且又以素食為主,消費(fèi)水平也很低,但是這群學(xué)生通常早餐會(huì)吃得非常好。當(dāng)然這中間也存在有些貧困生會(huì)將更多的金錢投放在早餐上,因此限制并不嚴(yán)格。全校平均早餐消費(fèi)在4.5元左右,這里用5元限制,只會(huì)篩選出具有早餐高消費(fèi)特征的學(xué)生。通過表1的篩選條件,對(duì)這8大類學(xué)生的消費(fèi)情況作圖分析,如圖3所示。通過篩選了午餐、晚餐消費(fèi)次數(shù)高,午餐、晚餐平均消費(fèi)水平低,早餐消費(fèi)不是特別高,消費(fèi)偏差不是特別高的學(xué)生為目標(biāo)學(xué)生(即A、B類學(xué)生)。但是通過圖3可以發(fā)現(xiàn),需要補(bǔ)貼的學(xué)生早餐的消費(fèi)水平也是8類消費(fèi)者中最低的,每餐飯的偏差都非常?。ū容^有計(jì)劃地花銷),并且早餐也在飯?zhí)贸?,吃宵夜和買零食的次數(shù)相比于在校吃飯次數(shù)低很多,這一切特征都滿足實(shí)際印象中的貧困生的判斷指標(biāo)。
4結(jié)語(yǔ)
以學(xué)生在校的消費(fèi)打卡數(shù)據(jù)為基礎(chǔ),通過近鄰傳播算法將學(xué)生群體進(jìn)行分類,確定學(xué)生的消費(fèi)類型。分類結(jié)果不依賴學(xué)生經(jīng)濟(jì)情況調(diào)查數(shù)據(jù),在一定程度上能夠客觀地反映學(xué)生的經(jīng)濟(jì)狀況。進(jìn)一步,可以通過比對(duì)給出的貧困生名單和學(xué)生處人工統(tǒng)計(jì)的貧困生名單來判斷方法是否準(zhǔn)確。當(dāng)然考慮到學(xué)生處的名單也存在調(diào)查難的問題,如果能加以追蹤調(diào)查則會(huì)得到更好的評(píng)估結(jié)果。另外,此次研究只考慮了典型的指標(biāo),存在邊界模糊的情況,后續(xù)將繼續(xù)改進(jìn)算法,提高結(jié)果的可靠性。下一步工作,擬將開發(fā)基于此模型的應(yīng)用系統(tǒng),應(yīng)用到高校家庭經(jīng)濟(jì)困難學(xué)生信息系統(tǒng)認(rèn)定的開發(fā)中,為學(xué)校的貧困生評(píng)定做決策支持。
作者:曾青松 魏斌 單位:廣州番禺職業(yè)技術(shù)學(xué)院信息工程學(xué)院 廣東外語(yǔ)外貿(mào)大學(xué)英語(yǔ)教育學(xué)院