- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
已发(论文)检测分析报告的权重系数设定赵蔚
HYPERLINK 论文查重检测
HYPERLINK 论文查重检测
第 29 卷第 2 期
2012 年 4 月
浙 江 海 洋 学 院 学 报( 人 文 科 学 版 )
JOURNAL OF ZHEJIANG OCEAN UNIVERSITY(HUMANITIES SCIENCE)
已发论文检测分析报告的权重系数设定
赵
蔚
Vol.29 No.2
April,2012
(宁波大学 学报编辑部,浙江 宁波 )
[摘要]文献学术不端计算机识别为文本复制和意义改写 2 个层次,实践中计算机达到了文本复制识别层面。已发论
文的检测系统能自动删除该文章发表时(含发表时间为同一天)及以后的疑似部分及疑似论文。论文检测过程的主、
客观因素会对已发论文检测结果产生影响,可以采取增减权重值法对检测结果进行修正:对文章关键部分的抄袭 ,
观点、主题抄袭,对研究方法、研究数据的抄袭要执行增加权重值法甚至一票否决;对文章前半部分抄袭、由于系统
收录不全、作者明确标注的文字复制比要适度降低抄袭率权重值。
[关键词]已发论文;检测结果;权重值;文字复制比
[中图分类号] G237.5
[文献标识码] A
[文章编号] 1008-8318(2012)02-0100-04
近年来,cnki 等文献学术不端检测系统增加了对已发论文的检测,主要用于评奖、引进人才科研诚信验
证和职称评审前的资格审查等环节,这种检测模式对已发论文的科研诚信起到了追溯作用,该项措施的实
施使我国向全面实现诚信科研迈进了一大步。拥有文献学术不端检测权的机构不多,但是在厘选论文和评
审资格等环节的涉及面非常广,可以说和每位研究者都息息相关。机器检测报告是否完全公正是每位被检
测者十分关注的,笔者基于已发论文的学术不端检测系统特点,对机器检测报告进行了研究,希望为检测者
提供参考。
一、文献学术不端检测系统原理
(一)计算机对文献学术不端现象的识别
对学术不端现象进行了大量研究的蒋寅先生认为目前学界的文献学术不端现象主要包括:无视学术规
范的剽窃、抄袭现象;毫无新创的低水平重复;一稿多投,著作内容重复出版等变相学术欺诈行为。[1]以上各
种学术不端现象可以溯源到作者的写作行为:简单抄袭和复杂抄袭;将 2 种抄袭行为转换为电脑的识别技
术为:文本复制识别和意义改写识别。基于对文献学术不端检测系统识别技术原理探析,可以对文献学术不
端检测报告结果进行科学解读。
(二)文献学术不端检测系统识别技术
随着世界范围内的版权保护呼声的高涨,计算机的抄袭识别研究始于 20 世纪 80 年代后期。国外的文
献识别技术研究者针对某些科研人员运用电脑的“复制粘贴”类抄袭,开发出的识别技术有:数字指纹
(fingerprinting)和词频统计(word-frequency)两类。特定的指纹序列就代表了论文的内容特征,通过比较这些指
纹来计算论文间的相似程度。词频统计技术特点是准确率高,但用词频统计方法在速度上没有优势,目前的
识别效果也不尽如人意,存在的主要问题有区分度不高,错查、漏查现象严重。[2]
我国研究者根据汉语言文字的特点,专门开发出自适应多阶指纹(AMLFP)特征检测算法、ROSTSEAT 算
法数字指纹等检测方法。[3] 目前计算机能够识别的是文本复制类型的简单抄袭,因为这些方法本质上都是
基于对词或标记“统计”和“对比”的方法,而非真正理解了篇章的意义。评价学术不端检测系统的另一个重
要因素是后台核心数据库平台的收录情况,最好的收录源要能够最全面收录中外文书籍、中外学术期刊、中
[收稿日期]2012-01-18
[基金项目]浙江省高校学报研究会 2010 年课题 学术不端检测系统应用研究”编号:ZXG2010-12)。
[作者简介]赵蔚(1973-),女,黑龙江哈尔滨人,编辑,硕士。“ (
“ (
第 2 期
赵
蔚:已发论文检测分析报告的权重系数设定
101
外文网络文献等品类,以便于实现比对的权威性。
(三)已发论文学术不端检测系统原理
研究者对以“统计”和“文字比对”为基本原理的未发论文检测原理探讨的比较多,为了测试已发论文与
未发论文检测系统的差别,笔者曾拿一篇已发论文在未发论文检测系统进行了测试,结果显示论文全篇皆
红,系统显示这篇文章和已经发表的文章疑似度为 100%,以此推断未发论文检测系统是不能检测已发论文
的,主要原因是系统缺少了一个关于时间判定的功能。
在已发论文检测库里进行论文的检测,必须满足 3 个条件:第一,系统要能识别出已经存在的被测文
章,并自动过滤;第二,系统要能够正确识别被测文章发表后,与该文章一致的疑似抄袭部分,并自动过滤。
这 2 种情况分别代表作者自己发的文章和别人抄袭
文档评论(0)