- 1、本文档共52页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
四、六级考试英作文自动评分研究
摘要
摘要
全国大学生英语四六级网考在教育部的推进下渐渐成形,四六级作文的自动评分成为一
个随之出现的新课题。以往四六级作文阅卷采用人工评分,工作量很大,且很难保证评分的
准确性和客观性。随着参考人数的增多,这一问题日益突出。因此,迫切需要一种客观、准
确、高效的作文自动评分系统来减轻人工评分的工作强度。伴随着四六级网考改革的逐渐展
开,如何科学合理地对四、六级英语作文进行评分成为四六级网考实施的主要瓶颈之一。
对于英语作文的评分,一般是从内容和语言两方面来进行的。
作文文本的表示通常采用向量空间模型(VectorSpace
生的表达习惯、知识水平各不相同,对同一个概念可能有不同的表达方式,会出现大量的近
义词、同义词、多义词,而VSM却假设词间相互独立,所以采用VSM表示作文内容不尽合理,
Semantic
而采用潜在语义分析(Latent
VSM的局限性。LSA假设文本中存在某种潜在的语义结构,这种潜在的语义结构隐含在文本中
词语的上下文使用模式中,可利用统计方法获得,其核心思想是通过奇异值分解将文档向量
和词向量投影到一个低维空间,使得相互之间有关联的作文即使没有相同的词也能获得近似
的向量表示。本文分别以VSM和LSA作为作文内容评分的模型,进行了比较分析。由对比实
验得出的结论是:基于LSA模型得到的对作文内容的机器评分与教师评分具有最小的误差。
因为全国大学四六级英语考试这样的大规模考试提供了大量作文集合,从这些大量的作文集
合中,采用统计的方法可以计算出哪些单词更能表征作文的内容,从而提取出这些单词作为
表征作文内容的特征项。这些特征项在一起构成了表征作文内容的特征向量。
对于作文的语言方面的评分,本文从词汇、语法、句法结构三个角度抽取若干特征来度
量作文的语言质量,并采用必威体育精装版的自然语言处理技术,使获得的评分变量更加合理。对于作
文中可能出现的语法错误,解决方法是定义描述常用英语语法错误的XML规则文件,通过将
待评分作文文本与错误语法规则的模式一一匹配来检查语法错误,对于句法结构多样性可以
通过句法分析器StanfordParser来提取句子树状结构,提取每个句子中不同种类从句个数、
不同词性单词个数等变量作为作文的语言学特征,这些特征相对于以前的系统中的浅层语言
评分变量更加具体、更有说服力。
在对作文的评分方面采用了机器学习的方法将教师已评分的部分作文从内容和语言方面
near
分别给出对应的特征向量作为学习样本,从而组成一个样本空间,对待测文本利用KNN(K
neighbor)算法对作文进行评分。最后对作文内容和语言两方面的得分进行加权求和。
关键词: 向量空间模型;潜在语义分析; K近邻; WordNet
东南大学硕士论文
Abstract
itisdi衔culttoensurethe
workofnational CETiSSOhardthat
Marking collegeEnglish
the ofthenumberofcandidateof
and of increase test,this
accuracyobjectivitygrading.昕豳the
andefficientautomated
isincreasinglyprominent.Therefore,anobjective,accurate essay
problem
workofexaminer
文档评论(0)