最近英國一個題目非常有爭議性的教育研究引發極大關注,其中指出將近40%的成績是“錯誤”的。
那么這個研究里到底說了什么?觀點是否正確呢?
這里有你想知道的!
這項研究是什么?上月,英國考試監管機構Ofqual公布了一份關于評分一致性的衡量標準(marking consistency metrics)。這個研究試圖通過使用“種子”問題的數據來評估GCSE、AS、A-level的評分一致性。
所以seed question到底是個啥?“Seeding”是各大考試局采用的一種用來監控與保證閱卷老師評分質量的方法。在大規模判分之前,考試局會從真實的學生考卷中選擇一些答案。一般是一位或多位高級閱卷老師,制定出一份“權威”評分標準,也就是被視作最合適的分數,我們暫且成為“標準分”。然后普通閱卷老師要接受評分“標準度”測評,也就是在電腦上會隨機出現一些上面的問題來進行打分。如果閱卷老師給出的分數與“標準分”差距太大(一定的范圍內是可以接受的),那么閱卷老師也要接受額外的指導,或者干脆被取消批卷資格。Ofqual的研究就是看普通閱卷老師給出的分數跟“標準分”有什么不同,使用的數據是來自于2017考試季收集來的GCSE、AS與A-level考試。然后Ofqual就可以通過使用這些復雜數據來評估,考生獲得“準確成績”的概率有多大。
那Ofqual發現了什么呢?根據Ofqual,“獲得標準分的概率中位數隨證書和科目的變化而變化”,概率計算的衡量標準1是100%,0.1是10%。不出意外,一些科目的“標準分”概率特別高,數學平均概率可以達到0.96。但是其他一些寫作類、答案比較長的問題無可避免主觀性因素更多,獲得“標準分”的概率就低一些,比如說英語語言與文學的概率只有0.52。這聽起來很讓人擔憂-可是這就意味著一半下發的英語成績都是錯的嗎?考試監管機構表示“標準分”應該被當做是研究的理論框架,而不是唯一的“正確”分數,不一樣的評分不應該自動歸為“不正確”或是“錯誤”。對于一些科目和一些問題來說,可能只有標準分才是正確的,比如說數學就是非對即錯。但是其他一些科目和問題,只要是在一定的合理范圍內,不一樣的分數也是合情合理的,所以一道滿分25分的社會學問題,標準分是18分,但閱卷老師給出的是19分或18分都是合理的。Ofqual強調的點在于,他們的分析并沒有區分不能接受的重大錯誤與合理范圍內的不一致性。
所以老師們應該擔心嗎?話雖這樣說,但很多人還是對數據傳達出的信息感到擔憂。批評家們認為Ofqual自己提出這個質疑,然后當大眾對這一結果感到不舒服的時候,又自圓其說。校長會議表示人文科目的“極端”不可靠性帶來了“嚴重”的影響。好在Ofqual指出獲得“標準分”差異1分以內成績的概率要高得多,占Ofqual調查問題的0.95以上。但在英國這樣“高風險”的考試體制下,這對升學取決于GCSE成績是3還是4的學生來說,并沒多大安慰。我們需要記住,評分一致性是有雙向作用的,一些應該拿到4分的學生卻錯過了4分,而一些本應該拿3分的學生卻得到了4分。Ofqual介紹2013-2017年間的評分一致性是穩定的,而且英格蘭跟其他國家的評分一致性并沒有相差甚遠。
為什么不直接采用原始卷面分?取消等級分數線直接采用原始分數是解決這個問題的一種方式,但這樣的分數不是很直觀,也不好進行對比。而且就算是等級分數線被廢除的話,學院、大學和雇主最終可能還是會設置自己的分數線。
還有其他的辦法嗎?Ofqual表示在改善評分一致性上,考試局還是有進步空間的。然而,不論閱卷老師接受多少培訓,或者評分標準寫得多么全面,我們永遠無法在每一個分數上達到完全一致。
最后,總結起來就是考試局的打分相對來說還是比較準確的,這40%的數字是與“標準分”對比的差異,但卻屬于合理范圍內,所以大家也別操心了,努力提高自己的卷面分才是正經事啊!

? 2025. All Rights Reserved. 滬ICP備2023009024號-1