托福口语主观题评分那点事儿之-监工记-托福口语.docx

下载文档 降价啦

1
0
约2.7千字
约 5页
2020-04-14 发布于山西
举报
版权申诉
保障服务

托福口语主观题评分那点事儿之-监工记-托福口语.docx

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

智课网TOEFL备考资料托福口语主观题评分那点事儿之监工记_托福口语上回我们说到主观题评分重要的阅卷前“质保手段”—评分员培训，其重中之重就是对评分量表(rating scale)的使用培训。那么“兵器”练趁手以后(大误)，就真能任由评分员“出师”掌握考生的“生杀大权”，自此“相忘于江湖”了吗?谁能肯定不会有人“仗剑”随心所欲，怠慢职责，视阅卷场为儿戏?谁能保证不会有人自以为深谙评分之道，天长日久“走火入魔”，误入“邪路”?无论是评分态度不端正，还是评分标准把握随阅卷疲劳出现松懈，最终导致的都会是一个结果—判分误差加大，对考生的“滥杀无辜”，这也正是各类主观题考试阅卷竭力避免的。那么，又怎么保证评分员实际操作中的行为规范呢?这就衍生出托福口语主观题阅卷中的重要“质保”环节：评分员阅卷质量监控。在托福口语主观题评分过程中，多种因素都会导致误差的出现，影响考生分数，在考试测量中称为侧面。通常来说，有五个侧面会影响考生分数：(1)考生能力;(2)评分员评分宽严度;(3)评分行为目标或特征的难度;(4)试题难度;(5)评分量表结构，即评分量表的等级数。在这五个侧面中，除了考生能力是考试的测量目标，其他四个侧面都是评分干扰因素，又称干扰变量(intervening variables)。除了这四个干扰变量外，评分系统的特征、考生本身特征及一些交互作用，也都会影响考生的得分。而作为评分行为的主体，评分员是最容易与客观因素产生交互作用，并因此受到影响的。如评分员与评分行为特征间的交互作用会造成评分员标准不统一，评分员与试题间的交互作用会造成评分集中，评分员和时间的交互作用会造成评分员打分波动。总之，种种通过与评分员的交互作用所引入的误差，被称为评分误差。考试机构在主观题评分时，采取措施以减少评分误差，提高评分信度和效度，就是主观题评分质量监控的目的。主观性试题有允许被试自由应答的特点，答案往往不唯一，可有效测量被试对知识分析、综合、应用、评价等方面的能力，同时因答案需被试自行组织，能有效排除像客观题那样通过猜测答对的可能性，因此，主观性试题被广泛用于国内外多种测试中。但对于这种构造作答式(constructed-response)题目而言，考生得分易受评分员水平、好恶等主观因素影响，产生误差，降低评分信度和评分准确性，这一现象被称为评分员效应(rater effects)。ETS归纳出了以下几种常见的评分员效应：(1)不同评分员对评分规则的理解不同;(2)评分宽严度不同;(3)评分员给分趋向某一分段;(4)评分员给分可能会由于疲劳等原因，随时间漂移。【画外音：你们能体会每天沉浸在各国英语奇葩发音折磨数小时，到头来弄得自己话都快不会说了的痛苦么……(扶额)】表1 托业(TOEIC)主观题评分员质量监控分析示例 From: Monitoring Individual Rater Performance for the TOEIC Speaking and Writing Tests, 2013. 为了减少评分员效应带来的误差，考试机构往往会在采取一些措施，如评分员培训、模拟评分练习、每日工作开始前常规化的参照标杆卷校准程序等，尤其是评分过程中的质量监控工作。为了保证评分质量，需要对评分过程进行监控，并将评分员监控作为一个持续的过程，贯穿整个评分工作始终，通过定时派发校准卷(ETS的标准为每4小时进行一次评分校准)等方式，发现个体评分员的异常表现，对评分员效应做出及时矫正。在大规模考试及选拔性考试中，双评法是评分员质量监控、控制主观题评分误差的一种常用方法。双评法(double scoring)，顾名思义，就是两名评分员对同一作答反应进行背对背的独立评分，共同决定考生得分的评分方式。ETS认为，多个评分员的独立评分比单个评分员，能为考生能力提供更可信的解释。在网阅环境下，通过对两名评分员对同样的考生作答的评分数据的收集，能有效反映出评分员对同一评分内容的评分标准是否一致，并将评分误差控制在一定范围内。而分析、判定评分质量优劣的指标，即为评分员间评分一致性(interrater agreement)，主要包括两个方面：(1)多名评分员间评分的一致性;(2)某一评分员评分的稳定性。常用的评价一致性的指标也有两个：(1)不同评分员或不同次评分的相关性;(2)不同评分员或不同次评分结果统计差异。对大型考试而言，一般要求不同评分员或不同次评分的相关系数大于0.8;且经成对样本T检验，不同评分员或不同次评分结果的平均值无显著差异。从常见测试来看，对于6分以下的评分量表，一般双评差异分值不大于