- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[学位论文学术不端行为检测系统介绍与演示[学位论文学术不端行为检测系统介绍与演示[学位论文学术不端行为检测系统介绍与演示
学位论文学术不端行为检测系统介绍与演示
同方知网(北京)技术有限公司
科研诚信管理系统研究中心
2018-8-1
大 纲
引入学术不端行为检测的必要性与紧迫性
实施学术不端检测的可行性:原理与方法介绍
TMLC系统主要功能演示介绍
应用推广情况介绍与用户反馈意见分析
TMLC系统服务模式介绍
下一步工作计划
大 纲
引入学术不端行为检测的必要性与紧迫性
实施学术不端检测的可行性:原理与方法介绍
TMLC系统主要功能演示介绍
应用推广情况介绍与用户反馈意见分析
TMLC系统服务模式介绍
下一步工作计划
政策的必要性
引入学术不端检测的必要性
培养良好的科研诚信对于研究生的一生至关重要
如果不能从研究生培养环节遏制学术不端行为,带有不端治学态度的研究生毕业后,不断涌入各级研究机构,不端行为就将形成“长江之水,滔滔不绝”,就不能从根本上扭转不端行为不断恶化的事态。
大 纲
引入学术不端行为检测的必要性与紧迫性
实施学术不端检测的可行性:原理与方法介绍
TMLC系统主要功能演示介绍
应用推广情况介绍与用户反馈意见分析
TMLC系统服务模式介绍
下一步工作计划
可行性分析
资源可行性
以《中国学术文献网络出版总库》为比对资源
总库收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。
拥有学术期刊7000余种,期刊全文文献2480万篇,72万篇优秀硕士学位论文,9.6万篇博士学位论文;重要会议论文106万篇;报纸500多万篇;国家标准、专利、SPRINGER数据库
可行性分析(2)
技术可行性
CNKI自适应多阶指纹分析技术(AMLFP)
TPI文本数据库加工技术
KBase全文数据库管理系统
SmartTextMiner知识挖掘技术
NLPE中文自然语言处理技术
CNKI自适应多阶指纹分析技术(AMLFP)工作原理
海量比对资源库
检测文献
基于AMLFP的
文献快速比对
检测结果
工作原理(2)
待检测文档
支持段落、句子检测,支持超长文章:学位论文、图书专著检测。
支持改写、组合等多种类型学术不端行为检测
指纹
XXX-YYY-CCC-DDDD-KKK-FFFF
CNKI自适应多阶指纹(AMLFP)特征检测速度快,准确率,召回率较高,抗干扰性强
在千万量级全文比对数据中,单篇文献检测速度达到毫秒级响应
检测系统框架
文章特征库
待检测论文
重复内容
比对
文章比对库
期刊
会议
学位论文
专利
报纸
图书
工具书
注册文章
抄袭
伪造篡改
专家复合审查
事实数据库
学者规范数据
科研规范机构
科研成果
引文统计
Yes
No
检测指标设计
设计原则
针对学位论文是超长文献的特殊性,设计了一套总指标与子指标相结合的检测评估体系。
总检测指标
学位论文一般篇幅较长,检测系统会自动按章节切分(无章节信息则按字数切分)。
总检测指标指对论文全貌的检测描述。
子检测指标
对于学位论文每一章节,检测系统对每一章节均生成一套指标系数。详细描述每一章节的检测情况。
总检测指标
总重合字数(CCA)
总文字复制比(TTR)
总文字数(TCA)
疑似章节数(QCA)
总章节数(TCA)
首部重合文字数(HCCA)
尾部重合文字数(ECCA)
段落最大重复字数(MAXA)
段落最小重复字数(MINA)
总重合字数
学位论文一般篇幅大,少则3~5万字,多则十几万字,若以文字复制比来衡量一篇论文的文字重合情况,不太合适。因为对于一篇十几万字的博士论文来说,10%就已达到1万字,文字复制情况已经非常严重。
对于博硕士论文检测,检测系统使用绝对字数即总重合字数作为检测结果的核心指标。
总文字复制比、总文字数
总文字复制比
总文字复制比则是指学位论文中总的重合字数在总的论文字数中所占的比例。通过该指标,我们可以直观了解到重合字数在该检测学位论文中所占的比例情况。
总文字数
指该检测论文所有包含的字数,文字复制比与总文字数的乘积即为重合字数。
疑似章节数、总章节数
疑似章节数是则检测论文疑似存在学术不端行为的章节的数量。
总章节数则是指学位论文总的章节数(对于不按章节显示,而是按照固定长度切分的论文,每一切分段落为一章节)。
首部重合文字数、尾部重合文字数
首部重合文字数指学位论文前1万字中重合的文字数量。
尾部重合文字数是指除去前1万字,剩下的部分中重合的文字数量。
对于学位论文,一般开头部分均是综述性的报告介绍,其重要性远低于论文尾部。
段落最大重复字数、段落最小重复字数
论文所有段落中,每一段落最大的段文字数比较,最大的为段落最大重复字数
论文所有段落中,每一段落最大的段文字数比较,最小的为段落最小重复字数
反应每一切分段落是否都有较严重的文字复制情况。
子检测指标
文字复制比(TR)
文档评论(0)