基于考试结果挖掘教育评价理论与实践.docVIP

下载本文档

5
0
约1.01万字
约 18页
2018-06-16 发布于福建
举报
版权申诉

基于考试结果挖掘教育评价理论与实践.doc

1、本文档共18页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于考试结果挖掘教育评价理论与实践

基于考试结果挖掘教育评价理论与实践　　摘要：考试分数的使用是评价工作的关键一环，它直接影响着教育决策部门、学校和学生对分数及其背后信息的使用。近些年来，随着现代统计与测量理论研究的不断深化，国内外考试机构在考试分数的使用方面基于认知诊断和多元智能理论的应用取得了长足的进步，为政府部门的决策、学校的教学改进和考生自主学习提供了科学依据。笔者结合我国大规模教育考试的实际，在总结国内外理论研究和实践经验的基础上，在高考、教师资格考试、NCRE等项考试中尝试进行了利用考试分数开展评价的探索。　　关键词：高考；考试评价；诊断性分数报告　　中图分类号：B841.2 文献标识码：A 文章编号：1003-5184（2012）05-0461-05 　　1 基本背景 　　考试是一种重要的学业评价方式，其是否科学合理，在很大程度上决定着教育的走向，影响着学生的素质发展，也关系到整个社会的教育公平与民族素质的提高。 　　考试自创立至今有1300年的历史了，人们常把考试比作一把尺子，通过考试分数可以测量出参加测试人的水平，但是，仅有一个考试总分又有多大意义呢？分数并不代表一切，考试分数只有结合具体实际观察加以解释和分析才更有意义。也就是说，考试不仅要测量出一个结果，更要结合结果进行有效地评价。对于不同的人，得到同一个相同的考试分数，其意义是不相同的。因此，对考试分数进行解释主要包括两个目的：第一，使分数有意义；第二，将有意义的信息传达给参与考试的所有当事人。传统的做法一般都是在解释分数时在参照标准上做文章，例如提供一个常模参照分数或标准参照分数。近年来，由于考试出现了“基于统计的测量向基于理论的测量，考试内容更加全面和深入，评价方式也呈现出多元化倾向，再者，由于运用了更多的现代测量理论和技术，面向诊断”等等转变，考试分数的解释也出现了一些有别于传统的新趋势。 　　目前考试结果的反馈形式，主要存在以下几方面的问题。第一，缺乏对不同科目试题所考核的能力层次和知识领域上不同属性的分析，从而减弱了教学评价的导向功能。第二，对考试数据本身所提供的信息挖掘不够???对于考生成绩的报告，往往只有各个科目的总分，没有对每个科目的不同能力层次或不同知识领域的分数的报告。第三，考试评价方式和数据反馈形式不利于各级教育行政部门对教育质量做出客观公正地评价。改变评价方式、充分挖掘考试数据本身提供的信息，将极大地丰富考试的评价功能，从而使得教育评价更好地为不同层次、不同群体的发展服务。 　　2 诊断性分数报告的研究与现状 　　评价的目的不是为了证明，而是为了改进（Stufflebeam，1983）。这句表述已经得到了理论和实践工作者的高度认可，更彰显了教育评价内在价值的回归。作为教育评价的主要形式，考试的诊断、反馈与矫正功能日益被关注，这直接推动了诊断性测验及其分数报告模型的快速发展。其中，分数报告的地位和作用是显而易见的，它即承载了各种先进的测量、评价技术，又是教学主体采取干预、改进措施的主要依据。同时，理想的分数报告还需要符合国家教育制度关于课程、教学以及质量要求的规范，并赋予教育教学的内涵。因而，结果的科学性和精确性、呈现结果的通俗性、内容上与上位教育质量框架的契合性，是衡量分数报告可资参考的三个标准。在此，结果的科学性和精确性是基本前提。目前，不少研究集中在如何改进评价模型以准确评估考生的知识和能力水平。 　　从20世纪80年代开始，围绕如何让测验提供更多的诊断性信息，研究者进行深入地探讨，提出了一系列具体的方法，力图科学准确地反映出个体在知识结构、能力水平方面的人际差异。Yen（1987）提出了目标表现指数（Objective Performance Index）的算法，采用了根据测验总体表现来估计子分数的方法，得出基于次级考查目标观测分数与整体表现的加权平均分。目前该方法在CBT的考试项目中得到了广泛的应用。Wainer等（2001）提出了强化分数（Augmented subscore）的测量模型，与Yen不同，他坚持从各次级考查目标的表现而非整体表现来推导出子分数，其理由是：不同次级考查目标分数之间的相关性都比较高，即使是中等程度的相关，也需要将之纳入对相应子分数的估计中，这一点，在数学、科学中尤为明显。因而，Wainer进一步认为可以根据各次级考查目标分数之间相关程度的大小来设置不同的权重，采用经验贝叶斯估计法来得出强化分数，这种算法类似于Kelley（1927）提出的回归算法，只是增加了多个次级考查目标分数作为估计时的变量。近年来，各种认知诊断模型大量涌现（RSM，Tatsuoka，1983，2009；DINA，NIDA，Junke Sijtsma，2001；AHM，Leighton，Gierl， Hunka，2004；RUM，Rou