- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
智课网TOEFL备考资料
托福口语主观题评分那点事儿之监工记_托福口语
上回我们说到主观题评分重要的阅卷前“质保手段”—评分员培训,其重中之重就是对评分量表(rating scale)的使用培训。那么“兵器”练趁手以后(大误),就真能任由评分员“出师”掌握考生的“生杀大权”,自此“相忘于江湖”了吗?谁能肯定不会有人“仗剑”随心所欲,怠慢职责,视阅卷场为儿戏?谁能保证不会有人自以为深谙评分之道,天长日久“走火入魔”,误入“邪路”?无论是评分态度不端正,还是评分标准把握随阅卷疲劳出现松懈,最终导致的都会是一个结果—判分误差加大,对考生的“滥杀无辜”,这也正是各类主观题考试阅卷竭力避免的。那么,又怎么保证评分员实际操作中的行为规范呢?这就衍生出托福口语主观题阅卷中的重要“质保”环节:评分员阅卷质量监控。 在托福口语主观题评分过程中,多种因素都会导致误差的出现,影响考生分数,在考试测量中称为侧面。通常来说,有五个侧面会影响考生分数:(1)考生能力;(2)评分员评分宽严度;(3)评分行为目标或特征的难度;(4)试题难度;(5)评分量表结构,即评分量表的等级数。在这五个侧面中,除了考生能力是考试的测量目标,其他四个侧面都是评分干扰因素,又称干扰变量(intervening variables)。除了这四个干扰变量外,评分系统的特征、考生本身特征及一些交互作用,也都会影响考生的得分。 而作为评分行为的主体,评分员是最容易与客观因素产生交互作用,并因此受到影响的。如评分员与评分行为特征间的交互作用会造成评分员标准不统一,评分员与试题间的交互作用会造成评分集中,评分员和时间的交互作用会造成评分员打分波动。总之,种种通过与评分员的交互作用所引入的误差,被称为评分误差。考试机构在主观题评分时,采取措施以减少评分误差,提高评分信度和效度,就是主观题评分质量监控的目的。 主观性试题有允许被试自由应答的特点,答案往往不唯一,可有效测量被试对知识分析、综合、应用、评价等方面的能力,同时因答案需被试自行组织,能有效排除像客观题那样通过猜测答对的可能性,因此,主观性试题被广泛用于国内外多种测试中。但对于这种构造作答式(constructed-response)题目而言,考生得分易受评分员水平、好恶等主观因素影响,产生误差,降低评分信度和评分准确性,这一现象被称为评分员效应(rater effects)。ETS归纳出了以下几种常见的评分员效应:(1)不同评分员对评分规则的理解不同;(2)评分宽严度不同;(3)评分员给分趋向某一分段;(4)评分员给分可能会由于疲劳等原因,随时间漂移。 【画外音:你们能体会每天沉浸在各国英语奇葩发音折磨数小时,到头来弄得自己话都快不会说了的痛苦么……(扶额)】 表1 托业(TOEIC)主观题评分员质量监控分析示例 From: Monitoring Individual Rater Performance for the TOEIC Speaking and Writing Tests, 2013. 为了减少评分员效应带来的误差,考试机构往往会在采取一些措施,如评分员培训、模拟评分练习、每日工作开始前常规化的参照标杆卷校准程序等,尤其是评分过程中的质量监控工作。为了保证评分质量,需要对评分过程进行监控,并将评分员监控作为一个持续的过程,贯穿整个评分工作始终,通过定时派发校准卷(ETS的标准为每4小时进行一次评分校准)等方式,发现个体评分员的异常表现,对评分员效应做出及时矫正。在大规模考试及选拔性考试中,双评法是评分员质量监控、控制主观题评分误差的一种常用方法。 双评法(double scoring),顾名思义,就是两名评分员对同一作答反应进行背对背的独立评分,共同决定考生得分的评分方式。ETS认为,多个评分员的独立评分比单个评分员,能为考生能力提供更可信的解释。在网阅环境下,通过对两名评分员对同样的考生作答的评分数据的收集,能有效反映出评分员对同一评分内容的评分标准是否一致,并将评分误差控制在一定范围内。而分析、判定评分质量优劣的指标,即为评分员间评分一致性(interrater agreement),主要包括两个方面:(1)多名评分员间评分的一致性;(2)某一评分员评分的稳定性。常用的评价一致性的指标也有两个:(1)不同评分员或不同次评分的相关性;(2)不同评分员或不同次评分结果统计差异。对大型考试而言,一般要求不同评分员或不同次评分的相关系数大于0.8;且经成对样本T检验,不同评分员或不同次评分结果的平均值无显著差异。从常见测试来看,对于6分以下的评分量表,一般双评差异分值不大于
您可能关注的文档
- 扑克牌洗牌模型.doc
- 托班1920周工作安排表.doc
- 托福写作之经典100例句(4)托福写作.docx
- 托福写作精选范文:保持友谊比交新朋友重要.docx
- 托福写作素材分享【环境类】.docx
- 托福写作素材范文之年轻人是否要友计划能力.docx
- 托福写作:如何展示你的论据.docx
- 托福口语准备的时间里应该想什么.docx
- 托福听力提高心得托福听力.docx
- 托福考试时那些东西不能带入考场?.docx
- 《中国通史》文字稿第12集春秋争霸.docx
- java教程--类与对象-讲义课件(演讲稿).ppt
- Vue应用程序开发-(1).pptx
- 东北师大版社劳动实践与评价指导手册一年级上册主题二活动一寻找五彩的树叶课时课件.pptx
- 外研版英语四年级上册 Module 4 Unit 2 How much is it单元教学设计.docx
- 外研版英语四年级上册Module 4 单元整体教学设计.docx
- 6《上课之前》课件 鄂科技版 心理健康教育一年级.pptx
- 《1~5的认识》说课课件(共25张PPT)人教版一年级上册数学.pptx
- 六《解决问题(1)》说课课件 人教版 三年级上册数学.pptx
- 七《解决问题》说课课件 人教版 二年级上册数学.pptx
文档评论(0)