3.各学科评量量尺之刻度大抵是一致的。.ppt

下载文档 降价啦

7
0
约7.76千字
约 51页
2017-03-11 发布于天津
举报
版权申诉
保障服务

3.各学科评量量尺之刻度大抵是一致的。.ppt

1、本文档共51页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

建立學科評量量尺之理論基礎第二組 OMS096125 康金雲 OMS096102 羅文虹 OMS096111 歐瑞蘭大綱一、序論二、IRT為基礎的試卷等化原理三、學科評量量尺之建立四、如何應用與執行等化設計於國內大型測驗計畫五、學生成就量尺之應用六、結論序論一、問題背景 1.傳統聯招「一試定終生」 ?一年多試的機會 2.記分方式以原始分數（或加權分數）加總極具爭議性。 ?等化各科量尺 ◎數學超難，大部分分數集中在10~30分；國文簡單，大部分分數集中在60~90分。對於數學好但是國文差的學生不利∵各學科原始分數所參照量尺的刻不同。二、建立評量量尺之重要性：美國教育測驗社（ETS）之模式以美國SAT（scholastic aptitude test）為例： SAT：美國各大學申請入學的重要參考條件之一 A生數學能力中等，語文中上 B生數學能力中上，語文中等 B生數學比A生好 SAT量尺的潛在意義 1.由不同時段所獲得的分數高低，其評量量尺之意義大抵上是一致的。（隔一段時間後，兩生重測得分不會有太大變化，除非是“非常” 賣力地準備與複習。） 2.評量量尺之分數高低是具意義的。 3.各學科評量量尺之刻度大抵上是一致的。 4.分數相當可靠。 SAT量尺的潛在意義 1995年SAT評量量尺定為平均數500，標準差110（以1990年考生為參照群體）。以後每年的數學和語文以此為設定標準。年與年間考生得分高低的比較需謹慎行之，假如年代差距太遠，比較考生在該次樣本中的百分等級高低可能較有意義。 ETS不鼓勵把SAT的數學和語文分數加總，∵表面上評量單位相同，但實際上卻不一樣 IRT為基礎的試卷等化原理常用的幾種試題反應理論模式簡介測驗資料之搜集與設計重新調節IRT統計參數之單位非等化係數的等化方法應用IRT等化兩試卷之原始分數常用的幾種試題反應理論模式簡介單一參數模式(one-parameter logistic model) 二參數模式(two-parameter logistic model) 三參數模式(three-parameter logistic model) 多分計分法模式(partial credit model,PCM) 一般性多分計分法模式(generalized partial credit model,GPCM) 多分計分法模式(partial credit model,PCM) (Masters，1982) 為Rasch模式的延伸。假設試題 i 的計分由0分到m分之間，當受試者 j 之潛在能力為θ，回答試題 i 而被評k分的機率以公式一表示：(公式一) (公式二) 一般性多分計分法模式(Muraki，1992)(generalized partial credit model,GPCM) 針對Master之模式修改而成。允許每題的鑑別度值不一樣。可用於問答題。測驗資料之搜集與設計單一平衡樣本(Single Group with Counterbalancing) 隨機等組設計(Random Equivalent Groups) 共同試題-不等組樣本(Common Items-Nonequivalent Groups) 試卷內編輯涵蓋經被刻度過之試題(Precalibrating Items) 單一平衡樣本(Single Group with Counterbalancing) 只選擇一組樣本，這組樣本必須施測A和B兩份試卷。缺點：考生同時接受兩份試卷，厭倦的因素將影響表現，並可能左右等化的結果。可使用於等化兩份不是很長的試卷，很少用於大型測驗計畫。隨機等組設計(Random Equivalent Groups) 基本假設：從母群體裡隨機抽取數組樣本，這些樣本能力的分布狀態應是相似的。必要條件：採行大的樣本(如3000位考生的樣本大小) 應用：＊在這些施測版本中，通常一版本已在前一次施測中被使用過，而此版本將作為建