托福口语主观题评分那点事儿之-监工记-托福口语.docx

托福口语主观题评分那点事儿之-监工记-托福口语.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
智课网TOEFL备考资料 托福口语主观题评分那点事儿之监工记_托福口语 上回我们说到主观题评分重要的阅卷前“质保手段”—评分员培训,其重中之重就是对评分量表(rating scale)的使用培训。那么“兵器”练趁手以后(大误),就真能任由评分员“出师”掌握考生的“生杀大权”,自此“相忘于江湖”了吗?谁能肯定不会有人“仗剑”随心所欲,怠慢职责,视阅卷场为儿戏?谁能保证不会有人自以为深谙评分之道,天长日久“走火入魔”,误入“邪路”?无论是评分态度不端正,还是评分标准把握随阅卷疲劳出现松懈,最终导致的都会是一个结果—判分误差加大,对考生的“滥杀无辜”,这也正是各类主观题考试阅卷竭力避免的。那么,又怎么保证评分员实际操作中的行为规范呢?这就衍生出托福口语主观题阅卷中的重要“质保”环节:评分员阅卷质量监控。 在托福口语主观题评分过程中,多种因素都会导致误差的出现,影响考生分数,在考试测量中称为侧面。通常来说,有五个侧面会影响考生分数:(1)考生能力;(2)评分员评分宽严度;(3)评分行为目标或特征的难度;(4)试题难度;(5)评分量表结构,即评分量表的等级数。在这五个侧面中,除了考生能力是考试的测量目标,其他四个侧面都是评分干扰因素,又称干扰变量(intervening variables)。除了这四个干扰变量外,评分系统的特征、考生本身特征及一些交互作用,也都会影响考生的得分。 而作为评分行为的主体,评分员是最容易与客观因素产生交互作用,并因此受到影响的。如评分员与评分行为特征间的交互作用会造成评分员标准不统一,评分员与试题间的交互作用会造成评分集中,评分员和时间的交互作用会造成评分员打分波动。总之,种种通过与评分员的交互作用所引入的误差,被称为评分误差。考试机构在主观题评分时,采取措施以减少评分误差,提高评分信度和效度,就是主观题评分质量监控的目的。 主观性试题有允许被试自由应答的特点,答案往往不唯一,可有效测量被试对知识分析、综合、应用、评价等方面的能力,同时因答案需被试自行组织,能有效排除像客观题那样通过猜测答对的可能性,因此,主观性试题被广泛用于国内外多种测试中。但对于这种构造作答式(constructed-response)题目而言,考生得分易受评分员水平、好恶等主观因素影响,产生误差,降低评分信度和评分准确性,这一现象被称为评分员效应(rater effects)。ETS归纳出了以下几种常见的评分员效应:(1)不同评分员对评分规则的理解不同;(2)评分宽严度不同;(3)评分员给分趋向某一分段;(4)评分员给分可能会由于疲劳等原因,随时间漂移。 【画外音:你们能体会每天沉浸在各国英语奇葩发音折磨数小时,到头来弄得自己话都快不会说了的痛苦么……(扶额)】 表1 托业(TOEIC)主观题评分员质量监控分析示例 From: Monitoring Individual Rater Performance for the TOEIC Speaking and Writing Tests, 2013. 为了减少评分员效应带来的误差,考试机构往往会在采取一些措施,如评分员培训、模拟评分练习、每日工作开始前常规化的参照标杆卷校准程序等,尤其是评分过程中的质量监控工作。为了保证评分质量,需要对评分过程进行监控,并将评分员监控作为一个持续的过程,贯穿整个评分工作始终,通过定时派发校准卷(ETS的标准为每4小时进行一次评分校准)等方式,发现个体评分员的异常表现,对评分员效应做出及时矫正。在大规模考试及选拔性考试中,双评法是评分员质量监控、控制主观题评分误差的一种常用方法。 双评法(double scoring),顾名思义,就是两名评分员对同一作答反应进行背对背的独立评分,共同决定考生得分的评分方式。ETS认为,多个评分员的独立评分比单个评分员,能为考生能力提供更可信的解释。在网阅环境下,通过对两名评分员对同样的考生作答的评分数据的收集,能有效反映出评分员对同一评分内容的评分标准是否一致,并将评分误差控制在一定范围内。而分析、判定评分质量优劣的指标,即为评分员间评分一致性(interrater agreement),主要包括两个方面:(1)多名评分员间评分的一致性;(2)某一评分员评分的稳定性。常用的评价一致性的指标也有两个:(1)不同评分员或不同次评分的相关性;(2)不同评分员或不同次评分结果统计差异。对大型考试而言,一般要求不同评分员或不同次评分的相关系数大于0.8;且经成对样本T检验,不同评分员或不同次评分结果的平均值无显著差异。从常见测试来看,对于6分以下的评分量表,一般双评差异分值不大于

文档评论(0)

linyin1994 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档