數(shù)學(xué)教育研究質(zhì)量分析
時間:2022-07-28 11:21:38
導(dǎo)語:數(shù)學(xué)教育研究質(zhì)量分析一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1.引言
一件合格產(chǎn)品的問世必須經(jīng)過上百道工序的錘煉、全方位品質(zhì)監(jiān)控體系的檢測,同樣地,做教育實證研究,不可缺少的一環(huán)是對研究進行“質(zhì)量把關(guān)”,一項好的研究必須是穩(wěn)定可靠的,多次使用獲得的結(jié)果應(yīng)前后一致,這是教育研究得以推廣使用最基本的前提.在教育研究中,誤差不可避免,但大小有所不同,我們總是盡力縮小隨機誤差到可接受的程度,從而使得研究結(jié)果更準確可靠.一項研究結(jié)果的穩(wěn)定性和一致性如何、可靠性有多大、能在多大的程度上保證研究工具的精密是研究中最不容忽視的基本問題,這個問題即是研究的信度.不同研究的信度可能存在高低程度上的不同,教育實證研究應(yīng)當追求更高的信度以保證得出研究結(jié)論的客觀性、科學(xué)性和可推廣性.本文將揭示信度理論的原理,從信度的理論定義走向操作定義,并作進一步細化,從平行測驗的獲得方法重復(fù)施測、復(fù)本替代及等值分半等得到數(shù)學(xué)教育研究中的不同信度類型,深化對信度概念的理解,以期更有效地做好數(shù)學(xué)教育定量實證研究.
2.全方位認識信度
2.1從誤差角度———理論定義
對于實證取向的數(shù)學(xué)教育研究,傾向于用數(shù)據(jù)揭示現(xiàn)象背后的規(guī)律,從量的角度客觀還原事物本來面目,然而,不可避免地在數(shù)據(jù)收集、數(shù)據(jù)處理和數(shù)據(jù)分析過程中出現(xiàn)錯誤,產(chǎn)生誤差,影響研究結(jié)果的可靠性.“誤差”一詞源于自然科學(xué)研究中的物理學(xué)用語,可以借用來幫助理解信度的理論定義.在教育實證研究中,被試在某一測量屬性上的真實值稱為真分數(shù)(T),施測直接獲得的實際值實測分數(shù)(X),兩者之間的“距離”就是測量誤差(E),建立誤差模型X=T+E,其中,E和X是隨機變量且相互獨立.由于我們要考察的不是某一被試的分數(shù),而是一組測驗分數(shù)的整體特性,故將上式中的分數(shù)換成分數(shù)方差形式,即進行方差正交分解σ2X=σ2T+σ2E,信度反映了測驗結(jié)果的穩(wěn)定性和一致性,因此信度系數(shù)理論上可定義為一組測驗真分數(shù)方差與實測方差的比值,即ρXX=σ2Tσ2X=1-σ2Eσ2X,顯然該定義說明測量結(jié)果可靠程度關(guān)鍵在于實測分數(shù)的方差有多少是由個體真分數(shù)方差引起的,這一比例越高,隨機誤差的方差比例就越低,研究結(jié)果的穩(wěn)定性與一致性越強,研究的信度越高,反之,研究的效度就低.從誤差角度來看,要想得到信度系數(shù),必須將真分數(shù)從實測分數(shù)中分離,所謂真分數(shù)就是沒有誤差的值,或者說是大量(理論上是無限的)實驗結(jié)果的平均分數(shù),在測量屬性一定時,對某個特定的被試而言真分數(shù)T是一個常數(shù),具有穩(wěn)定性.然而在教育研究中,實際操作中誤差不可避免,試驗次數(shù)也不可能達到無限次,真分數(shù)T和隨機誤差都無法通過樣本來計算,因而在真分數(shù)理論框架內(nèi),σ2T(或者σ2E)是未知量.就是說,不能直接使用信度的定義公式來計算信度,這是看似簡單的信度卻引出諸多問題的原因.因此,盡管信度的理論定義公式是基于真分數(shù)本身的,直接抓住控制誤差這一本質(zhì),具有指導(dǎo)性的理論價值,但可操作性不強.我們有必要從不同角度研究信度的分類,將理論定義變得可操作、可計算.
2.2從相關(guān)角度———操作定義
既然真分數(shù)無法直接求解,不妨以退為進,設(shè)法找一些可以實際獲得的已知量來代替信度公式中的未知量,由于實測分數(shù)是實驗過程中唯一可直接獲得的資料,做法是從實測分數(shù)出發(fā)來定義信度,使信度變得實際可操作.理論上看,同一組被試在兩平行測驗上的實測分數(shù)是相同的,然而在實際研究中,同一組被試在兩平行測驗上實測分數(shù)往往存在差異,這種差異正是由測量誤差決定的,如果兩個實測分數(shù)高度接近,可以推論測量誤差很小,測量是可靠的.因而,一個合乎邏輯的想法是用兩個平行測驗實測分數(shù)之間的相關(guān)來定義信度,間接來推論測驗控制誤差的能力,該定義具有可操作性.從相關(guān)角度來看,信度是通過計算兩平行測驗得分的相關(guān)系數(shù)得到的,信度系數(shù)介于-1到1之間,信度系數(shù)越大,測驗越可靠.如果信度為負值,說明在一個平行測驗中得分高的被試在另一個平行測驗中得分低,當然這種情況很少出現(xiàn),信度系數(shù)一般介于0到1之間,不同目的的測驗對信度系數(shù)的要求不同,例如一般標準學(xué)業(yè)成績考試要求信度在0.90以上,標準智力考試的信度應(yīng)達到0.85以上,個性考試和興趣考試則較低,達到0.70-0.80即可.用相關(guān)法評估信度,用一個0至1之間的數(shù),依據(jù)數(shù)值的大小刻畫研究的效度高低,這種方法可操作性很強,關(guān)鍵點和難點就在于平行測驗的獲得.
2.3平行測驗的獲得———三種方法
要從操作層面得到測驗的信度指標,就要求得兩平行測驗的相關(guān)性,前提是存在兩組平行測驗,可以說,解決信度問題的能力就取決于獲得平行測驗的能力.平行測驗測的是同一被試屬性,要求對同一足夠大的被試施測后,這些實測分數(shù)的平均數(shù)和方差都相等,且所有測驗與其他任一測驗的相關(guān)也相等.這是按照統(tǒng)計學(xué)方法進行檢驗,在數(shù)學(xué)教育研究中,我們還應(yīng)對測驗內(nèi)容進行分析.(1)從時間變量來看———重測信度如果一個測量工具和所測屬性是穩(wěn)定可靠的,那么測量結(jié)果應(yīng)當不以時間為轉(zhuǎn)移,前后一致.從這個角度出發(fā),用同一測驗對同一組被試在不同時間重復(fù)實測兩次,測驗的形式和內(nèi)容相同,就得到一組平行測驗,計算兩次實測分數(shù)的相關(guān)系數(shù)得到測驗的信度,稱為重測信度.根據(jù)重測信度的高低,可以得知測驗結(jié)果跨時距的穩(wěn)定性程度,因此重測信度也成為穩(wěn)定系數(shù).例如,為了考察學(xué)生對學(xué)習(xí)數(shù)學(xué)的興趣,就需要確定一定時間間隔,在使用某種教學(xué)方式前后分別對學(xué)生進行施測,考察兩次實測分數(shù)之間的相關(guān)性,即求重測信度是獲得平行測驗最簡單的方法,然而由于使用的是同一套測驗,形式與內(nèi)容完全一樣,測驗結(jié)果不可避免地受到練習(xí)和記憶的影響,加之時間間隔的確定不太容易,因此重測信度存在明顯的局限性,測量誤差較大.(2)從功能等值來看———復(fù)本信度為了避免使用同一測驗重測帶來的記憶效應(yīng)和練習(xí)效應(yīng),一種自然的想法是使用兩個功能相同的測驗對同一組被試對象進行施測,計算兩個版本得分的相關(guān)系數(shù),這種類型信度稱為復(fù)本信度.復(fù)本信度系數(shù)越高,表示兩個版本的實測分數(shù)基本相同,可以相互替代;復(fù)本信度系數(shù)低,則說明兩版本的實測分數(shù)不一樣,不能互相替代.例如,在許多正規(guī)考試中,都會出A、B兩套試卷,B卷作為備用卷,其功能在誤差允許范圍內(nèi)與A卷是等值的.考察兩個版本試卷的功能是否等同,就需要求出A卷得分與B卷得分的相關(guān)系數(shù)作為兩個版本在功能上的等價程度,即復(fù)本信度.在可以被接受的信度范圍內(nèi),兩套試卷互為復(fù)本,相互替代,以備不時之需.實際上,復(fù)本信度的高低反映了兩個互為復(fù)本的測驗在效能上的等價程度,而不是直接反映一個測驗本身受隨機誤差影響的大?。ǔR髢蓚€版本在題目內(nèi)容、形式、題數(shù)、難度等方面保持一致,這樣才能保證整體測驗的效能類似,從而提高復(fù)本信度系數(shù),因此復(fù)本信度也成為等值系數(shù).然而,在教育研究中,兩個測驗具體的項目難以保證“平行等值性”,內(nèi)容抽樣和難度匹配難以做到嚴格等同,并且編制兩份復(fù)本測驗所花費的人力物力成倍地增加,成本很高.(3)從內(nèi)部屬性來看———內(nèi)部一致性信度重測信度和復(fù)本信度都需要前后施測兩次,且復(fù)本信度還需要兩種形式的測題.為了減少時間和成本損耗,循著使用單一形式測驗只施測一次的思路,不妨從測題內(nèi)部的一致性著手考察測驗的信度,這樣得到的信度稱為內(nèi)部一致性信度或同質(zhì)信度.如果測驗內(nèi)部各測題間相關(guān)一致性強,則認為是同質(zhì)的,說明測驗的所有成分都在集中力量考察同一屬性,那么內(nèi)部一致性信度就高;相反地,各測題相關(guān)較低,則認為測驗為異質(zhì)的,測驗的內(nèi)部一致性信度就低.內(nèi)部一致性信度擺脫了傳統(tǒng)上信度系數(shù)的定義———用兩平行測驗向同一組被試前后施測兩次獲得兩批實測分數(shù)的相關(guān)性,另辟蹊徑,從內(nèi)部屬性角度出發(fā),用單一形式測驗只施測一次求出信度系數(shù),其原理還是使用了平行測驗,具體獲得平行測驗的方法如下:將一個完整的測驗分為等值的兩半,通常是奇偶分半法,即采用題號的奇偶數(shù)作為分組標準,分別兩半測驗分數(shù)之間的相關(guān),得到的信度稱為分半信度.這樣就實現(xiàn)了只用一個測驗,只對被試組施測一次即可求出信度,既不必對同一項目重復(fù)施測又免去編制復(fù)本的精力,省時省力.分半法的關(guān)鍵是在兩個半測驗上使用了平行測驗的原理,然而這樣使得實際測驗項目減少了一半,由于信度受測驗長度的影響,測驗越長,信度越高,因此分半信度低估了測驗的信度系數(shù),需要對其進行矯正.一般采用斯皮爾曼-布朗公式(Spearman-Brown)rXX=2rhh1+rhh進行矯正,其中rhh表示分半信度系數(shù),rXX是測驗在原長度時的信度系數(shù)估計值,使用該公式要求測驗兩半嚴格平行,即測驗的平均數(shù)、標準差、項目的組間相關(guān)等高度相似時;在實際操作中如果兩個分半測驗的方差不等,可以采用費拉南根公式(Flanagan)rXX=21-S2a+S2bS2()t和盧龍公式(Rulon)rXX=1-S2dS2t,其中S2a與S2b表示兩分半測題組得分的方差,S2d為兩分半測驗實測分數(shù)之差的方差,S2t是整個測驗的總方差.這兩個公式不要求分半測驗分數(shù)的方差相等,弱化了限制條件,操作性更強.然而,分半法中每種分法都會產(chǎn)生有微小差別的r估計量,為了克服這種弊端,研究者從方差分析的角度提出了以試題統(tǒng)計量為轉(zhuǎn)移的信度系數(shù)求法,可避免任意兩分半的誤差.假設(shè)全測驗有k個項目,通過考察任意兩個項目之間的相關(guān)性,求得信度系數(shù)———克隆巴赫α系數(shù)=kk-11-∑S2XiS2()X,其中S2Xi表示第Xi題得分的方差,S2X為測驗得分的總方差,k為測題數(shù)目,克隆巴赫α系數(shù)公式是一個適用廣泛的求單一形式測驗信度系數(shù)的通式,構(gòu)成測驗的項目可以是0-1二分值記分,也可以是非二分值記分;可以是平行項目,也可以是非平行項目.如果一個測驗全是以0-1二分值記分的項目組成,則上式每個項目實測分數(shù)的方差就等于用該項目上的通過率p與未通過率q的積,公式變?yōu)閞XX=kk-11-∑pqS2()X,稱為庫德-理查遜公式(KR-20),它是α系數(shù)在二分值記分方式上的特例.從分半信度到α系數(shù)和KR-20公式,這一大類單一形式測驗內(nèi)部一致性信度都考察測驗的組成成分,直至最基本的單位即項目之間的相關(guān)性.如果它們的相關(guān)一致性強,說明測驗的所有成分都集中于考察同一屬性特征,這樣測驗的信度系數(shù)取值高,測驗質(zhì)量好.內(nèi)部一致性信度在操作上采用了單一形式測驗,但本質(zhì)上仍是求取平行測驗間分數(shù)的相關(guān),因而與重測信度系數(shù)和復(fù)本信度系數(shù)一樣,都是一組實現(xiàn)平行性要求的策略和方法.從內(nèi)部屬性角度考察獲得平行測驗的方法,還能從信度和效度兩方面說明問題.它從信度與效度的關(guān)系角度提出了對測驗量表內(nèi)部一致性檢驗的思路,效度從根本上受到信度的限制,如果一個測量量表是有效的,這個量表就必須是前后一致的.重測信度、復(fù)本信度、內(nèi)部一致性信度是主要的三類信度指標,用來對研究質(zhì)量進行分析各有優(yōu)點和特殊適用范圍,嚴格地說,都是信度系數(shù)的大體估計值.一般地,內(nèi)部一致性系數(shù)大于復(fù)本信度,復(fù)本信度大于重測信度,復(fù)本信度和重測信度兩種估計方法中,屬于測量誤差的因素多與內(nèi)部一致性信度.在具體操作中,用來估計信度的方法應(yīng)當與研究的目的相吻合,有時還需把幾種方法加以綜合應(yīng)用,貫穿統(tǒng)一起來,使得在真分數(shù)理論的框架下,獲得對信度完整透徹的理解和運用.
3.教材尋根
數(shù)據(jù)是數(shù)學(xué)教育實證研究的命門,沒有量化數(shù)據(jù)的支撐何談研究的客觀、可靠、有效、可推廣.然而從“量”的角度客觀還原事物本質(zhì)的同時,不可避免地會產(chǎn)生隨機誤差,使得研究信度大大降低.因此無論是數(shù)學(xué)教育研究還是概率統(tǒng)計相關(guān)知識的中學(xué)數(shù)學(xué)教學(xué),都會強調(diào)控制隨機誤差,確保所獲得資料的準確性和可靠性,提高研究的信度.鑒于信度原理的復(fù)雜性,信度在中學(xué)概率統(tǒng)計部分的體現(xiàn),遠遠不如方差分析、相關(guān)系數(shù)、回歸分析這般明顯,但教材中對信度概念的處理、信度思想的滲透在細微處可見一斑.例如教材中統(tǒng)計部分,用樣本估計總體所提及到抽取樣本,三種抽樣方法往往只有“好壞之分”,而不是“對錯之分”,評價抽樣方法的優(yōu)劣應(yīng)該以樣本的代表性為標準,為了使樣本具有代表性,抽樣規(guī)則應(yīng)客觀、公正,保證總體中每個單元被抽中的概率相等,因此等可能性是三種抽樣方法賴以存在的前提和根本,這樣的抽樣結(jié)果才客觀公正、不失代表性,提高了研究的信度.再如教材中概率部分,頻率在大量重復(fù)試驗的前提下可以近似地作為這個事件的概率,這就是頻率與概率的關(guān)系,而“大量重復(fù)試驗”正是為了減少隨機誤差,提高了研究的信度,保證了試驗結(jié)果———概率的精準與合理,概率從數(shù)量上反映了隨機事件發(fā)生可能性的大小.統(tǒng)計與概率關(guān)系密切,理性和嚴謹是數(shù)學(xué)學(xué)科的特點,借助概率知識,通過邏輯分析和運算過程,讓三種抽樣方法的“等概率性”變得有理有據(jù),促進學(xué)生進一步體會抽樣規(guī)則的科學(xué)、合理之處,減少隨機誤差和偶然,保證研究的高質(zhì)量.
參考文獻
[1]顧海根.心理與教育測量[M].北京:北京大學(xué)出版社,2008:9-20.
[2]張靈,徐章韜.微言要義之抽樣方法.數(shù)學(xué)通報[J].2018(5):27-29,33.
作者:徐章韜 梁玉華 單位:華中科技大學(xué)附屬中學(xué) 中師范大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)學(xué)院