网站大量收购闲置独家精品文档,联系QQ:2885784924

学术不端论文检系统的工作原理.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
学术不端论文检系统的工作原理

学术不端论文检测系统的工作原理 学位论文学术不端行为检测系统(简称“TMLC”)以《中国学术文献网络出版总库》为全文比对数据库,实现了对抄袭与剽窃、伪造、篡改等学术不端行为的快速检测,可供用户检测学位论文,并支持用户自建比对库。 重合字数指学位论文该章节与比对文献比较后,重合部分的字数。一般来说,不管文字复制比如何,重合字数越多,存在学术不端行为的可能性越大。如图8所示,在图中,虽然文字复制比只有16%,比例不高,但图中左文标红部分实际上是抄袭了右文的标红部分。 学位论文一般文献篇幅较大,字数多,硕士论文一般为3~5万字,博士论文则多达十多万字。因此,为了让用户对整个学位论文有一个快速的概况了解,特制定了以下指标体系: 支持文献改写,多篇文献组合等各种文献变形检测; 学位论文一般篇幅大,少则3~5万字,多则十多万字,若以文字复制比来衡量一篇论文的文字重合情况,则不太合适。因为对于一篇十几万字的博士论文来说,10%就已达到1万字,文字复制情况已经非常严重。因此,对于博硕士论文检测,检测系统使用论文检测绝对字数即总重合字数作为检测结果的核心指标。如图6所示: ◆自建比对库:指管理人员可以选择将检测文献放入个人比对库或者批量上传文献作为个人比对库,该个人比对库即可作为以后学术不端文献检测的比对数据库,该自建个人比对库完全属于用户,其他用户无权使用。 与比对文献重合的最大段长度即为最大段长。最大段长反映成段抄袭特征。连续的文字越长,抄袭的可能性越大。 对于学位论文的每一章节,又制定了如下检测指标来反映该章节的检测情况,对于一篇学位论文来说,每一章的内容各异,重点也不一样,其核心工作内容一般主要存在某几章中,子检测指标可以让用户迅速了解每一章节的检测情况。子检测指标包括: 系统主要功能包括:已发表文献检测、论文检测、问题库查询、自建比论文检测对库管理等。 1.若用户提交的论文是ms word格式,且按照ms word格式生成了文档目录,检测系统会自动识别论文章节,按论文实际章节信息显示论文内容。 支持研究生学位论文、图书专著等超长文献的学术不端检测。 平均段长和 段落数反映了重合文字在学位论文中的分布情况,一般来说,指标参数越高,存在学术不端行为的可能性越大。如图9所示,标红部分的连续文字构成了段,而且它是算法设计的抄袭,审查人员比较容易判断;而在图10中,标红文字不构成段,连续文字较少,对它的性质判断则可能需要更多的信息。 在收录资源种类上,cnki在国内具有明显优势,收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。在资源收录数量上,cnki明显优于同类产品,各个资源库收录年限长,期刊等主要资论文检测源库回溯到创刊。在资源更新速度上,cnki产品除了第三方合作的外文文献以外,其他资源都做到了日更新,单日更新数量大,这是推行产业化、标准化运作的结果。 学位论文某一章节的前20%称之为章节首部,首部的文字复制比为首部复制比。就中文文献来说,一般每一章节正文开头部分出现的是综述性语言,重要性相对偏低。如图11所示,左文和右文开头大段相同,但文字内容基本都是综述性的介绍。 ◆问题库查询:指用户可以将检测结果中确认有问题的文献放入到问题库,便于用户集中管理。 在学位论文的某一章节中,所有该章节文字重合段的字数之和占该章节文字数的比例为段文字比。段文字比反映了抄袭连续特征。一般来说,连续文字出现的越多,比文字分散出现的情况更可能存在学术不端行为。 tmlc 采用cnki 自主研发的自适应多阶指纹论文检测(amlfp)特征检测技术,具有检测速度快,准确率,召回率较高,抗干扰性强等特征。 对任意一篇需要检测的文献,系统首先对其进行分层处理,按照篇章、段落、句子等层级分别创建指纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引。这样的分层多阶指纹结构,不仅可以满足我们对超长文献的快速检测,而且,因为我们的最小指纹粒度为句子,因此,也满足了系统对检准率和 检全率的高要求。原则上,只要检测文献与比对文献存在一个相同的句子,就能被检测系统发现。 该指标体系从多个角度对检测文献中的文字复制情况进行了概括性描述。 在学位论文中,所有段的数量为段落数。 每一章节的后80%称之为章节尾部,尾部的文字复制比为尾部复制比。 学位论文学术不端行为检测系统(简称“tmlc”)以《中国学术文献网络出版总库》为全文比对数据库,实现了对抄袭与 总文字数是指该检测论文所有包含的字数,文字复制比与总文字数的乘积即为重合字数。 1. 重合文字来源文献信息。 3. 总检测指标。 因为学位论文一般较长,因此,系统一般按章检索,并且每一章给出子检测指标,该检测指标从多个角度对该章内容的检测情况进行了详细

文档评论(0)

xll805 + 关注
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档