在測驗統計中還經常用到標準差,標準差是表征一組測驗數據的離散程度的量,用s表示。
2.物理測驗的評價指標:信度、效度、難度和區分度
(1)信度
信度是指一次測驗結果穩定性、可靠性的程度,是描述一份試卷可靠性指標。信度的計算方法很多,這里只介紹一種實際應用較多的折半法,即折半信度的計算方法。首先將一份試卷分成盡可能等值的兩半(可將試卷按奇、偶數分成兩份),使這兩份試卷考查目的、內容、題型、題數、難度分布、分值分配等相同或大致相同,這樣就相當于把其中的一半試卷在相同的條件下,對同一批學生考了兩次,從而考查考生在兩半測驗上得分的一致程度。先計算兩半測驗的關聯程度(即相關系數),用r表示。若考生總數為n,用 表示兩組試卷分數,則:
( )
最后用斯皮爾曼-布朗公式求出折半信度:
測驗的折半信度為0.8為基本合格。影響信度的主要因素主要有評分的標準和試題數量,要提高信度,就要求排除評分的主觀隨意性,客觀評分;題量要足夠多。
(2)效度
效度是測驗的準確性指標。效度可分為兩類,一類稱為內容效度,另一類稱為效標效度,對學生學業成就測驗考查的指標主要是內容效度,所謂內容效度是指測驗內容對所要測量內容的相符程度。分析內容效度從以下兩方面考慮:
①要從測驗的教材內容范圍(覆蓋面)和教育目標以及它們所占的比例分析。
②考查題目內容與命題的雙向細目表是否相符,參考答案、評分標準是否合理。
(3)難度
難度指測驗的難易程度,難度的數值用P表示。
對選擇題或判斷題(也稱二值性試題),若總人數為n,某題答對人數為R,難度的計算公式為
對于非選擇題和判斷題(非二值性試題),可用某個題目所得的平均數 的比值來計算難度的數值。
這里計算的難度數值實際指通過率,P值越大,難度則越小;P值越小,難度則越大。一般P值在0--0.3之間為較難;在0.3--0.7之間為適中;在0.7--1.0之間為較易。
(4)區分度
區分度指題目對不同學生的區分程度(或鑒別力)。
區分度計算方法很多(曲線法、相關法、極端組法)常用的方法是極端組法,計算步驟如下:
首先將全體學生按總分由高到低的順序排列(大數量考生可采取抽樣排序),其次將前面占總體學生人數的27%的試卷劃為一組,稱為高分組,后面占總體學生人數的27%試卷劃為一組,稱為低分組,則區分度(用D表示)為某題高分組通過率PH 與低分組通過率PL的差值。
或 (二值性試題,n為高分組或低分組的人數);
(非二值性試題)
一般認為用極端組法求得的區分度數值在0.40以上為優秀;0.30--0.39 較好;0.20--0.29 需改進,0.19以下認為不可使用,區分度差。
難度與區分度有密切的關系。一般情況下難度適中的題目,區分度都較高,太難、太易的題目,區分度都較低。
交流與討論:
(1)你認為適宜難度的試題對測驗有哪些作用?
(2)你認為傳統的教學測驗和學業成就評價有哪些不合理的地方?
三、標準分數
一般情況下,由測驗的實際分數不能看出考生在團體中的位置,有必要將實際分數轉化為標準分數,標準分數是以標準差為單位,表示一個分數在團體中的相對位置。
標準分數用符號Z表示,也稱Z分數,計算公式為
其中s是這組分數的標準差, 是一組分數的平均數, 是某一原始分數。標準分數可得正值,可為負值。平均數以上的各數的Z分數為正;平均數以下各數Z分數為負;等于平均數時,Z分數為零。
標準分數的應用主要在于確定原始分數在分數分布中的相對地位;也可接受代數運算,有廣泛的應用。
例如:某班學生李紅在期中、期末考試中,語文成績分別是88和84,物理成績分別是77和80,是否由此可得結論:李紅物理學習有進步,語文學習有退步?(各科班級平均分、標準差已知,見表7-3)
表7-3
科目 班級平均分 班級標準差s 李紅原始分數 李紅標準分Z
期中 期末 期中 期末 期中 期末 期中 期末
語文 80 74 8 8 88 84
物理 66 69 9 9 77 80
解:這是對同科不同次考試成績進行比較的問題,用標準分數進行分析。
把數值代入式 得
Z語中=(88-80)/8=1 ,Z物中=(77-66)/9=1.22 ,
Z語末=(84-74)/8=1.25 ,Z物末=(80-69)/9=1.22
結果說明,李紅的語文考試分數雖然降低了,但標準分數從1升至1.25,也就是相對位置升高了。物理考試分數雖然提高了,但標準分一樣,即相對位置沒有變化,因此不能簡單地認為李紅語文學習退步了,物理學習有進步。
在高考招生中,通常采用各科成績相加比較總分高低的辦法來錄取學生,使用范圍較廣泛。但卻有不夠合理、不夠科學的成分。這是因為各個學科考試試題的難易程度總不會相同,評分標準也不一樣,這必然形成有的科目的考分偏高,有的科目考分偏低,因此各科目的分值并不相同。這種情況下,將各科成績相加求和,比較總分就不合理了。如果先將各原始分數轉換成標準分數,不管各科目的原始分數的平均分和標準差有多不同,一經轉化成標準分數,就變為以平均數為零,標準差為1的標準形式。也就是說,各科的標準分數的單位都相同。因此,將考生的各科標準分相加求和,來比較總分的高低就比較科學合理了。
在標準分數Z的應用中,由于標準分數Z分值過小,并往往帶有小數和負值等缺陷,在許多情形下直接使用不大合乎人們表示分數的習慣,故通常把標準分數Z通過線性變換,轉到更大的標準分數量表上,其一般轉換公式為:
T=a+bZ
上式中,a和b為選定的兩個常數,Z為標準分數,T為線性變換的標準分數。常見的有如下幾種:
①教育與心理測驗中的T分數:T=50+10Z
②韋氏智力量表中各分測驗的量表分:T=10+3Z
韋氏智力量表智商(離差智商):IQ=100+15Z
③美國大學入學考試報告分數:CEEB=500+100Z
④為出國人員舉行的英語水平考試:EPT=90+20Z
⑤美國教育測驗中心舉辦“托福”考試:TOEFL=500+70Z