- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于分类思想的论文抄袭判定系统的设计与实现
基于分类思想的论文抄袭
判定系统的设计与实现*
□ 赵俊杰 / 安徽财经大学 蚌埠 233061
摘要:文章从抄袭的定义与法律界定出发,分析了当前论文抄袭检测与识别系统的不足之处,并给出
一种比较实用的基于分类思想的论文抄袭判定系统的设计思路和实现过程。系统先对待查论文进行分类,
然后通过与同类论文全文相似度计算初步筛选出相似论文集,接着待查论文与每篇相似论文再进行基于段
落词频统计的精确比较,最后输出结论。
关键词:抄袭判定,文本分类,特征向量,相似度,段落词频统计,数字图书馆
DOI:10.3772/j.issn.1673-2286.2008.11.015
DLFDLF
流 交 与 索 探 1 引言 他人论文全盘复制,只改动题目和署名;东拼西凑,
抄袭多篇论文的部分段落和语句;抄袭论文的图、
近年来,我国学术论文的抄袭与剽窃事件频 表与公式等。这里只讨论文字部分的抄袭判定。
发,学风问题已成为全社会关注的焦点。 《现代汉 目前,对于论文抄袭的判定主要采取数字指
R
语词典》对抄袭的定义是: “把别人的作品或语句 纹方法和词频统计方法。数字指纹方法,基本思路
e
s 抄来当作自己的”。在学术著作中, “抄袭是指将 是将从文档中选取一些字符串,这些字符串被称为
e
a 他人作品或者作品的片段窃为己有。”准确地说, “指纹” (fingerprint )。然后把指纹映射到Hash表
r
c
h 抄袭是指将他人作品或者作品的片段窃为己有并公 中,一个指纹对应一个数字。最后统计Hash表中相
a [1]
n
开发表 。 同的指纹数目或者比率,作为文本相似度依据。词
d
对于论文抄袭的界定笔者认为主要分为两种情 频统计法则是采用空间模型 (VSM )来表示,在模
E
x 况:一是论点抄袭,即抄袭他人的论点,自己另行 型中,论文空间被看作由一组独立词条所组成的向
c
h
a 论证,虽然内容不同,但仍应判定为抄袭;二是内 量空间,每个论文表示为一个特征向量进行相似度
n
g
[3]
容抄袭,即只要抄袭论文中有一定比例或具体字数 计算,常采用的计算公式包括点积法和余弦法 。
e
的文字与被抄袭论文相同,就认定抄袭成立。1985
文档评论(0)