- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
工程的申请与审核方案
工程的根本信息
工程的申请与审核包括首先征集工程建议书阶段,工程申请阶段提交工程任务书,工程审批执行提交工程实施方案。
审核人员需要分别针对工程书进行形式审查,内容审核〔查重〕,送交主管人员审核。
申请与审核方案具体如下:
1.1工程征集阶段
工程征集阶段中主要涉及到两类人员:科委系统管理人员以及申报单位的工作人员。工程征集的过程如下:
系统管理人员在系统中发布通知,申报中心向承当单位征集工程,申报单位的填报员依据通知和提供的账号密码登陆系统,进行填写工程建议信息。
承当单位依据系统通知向处室提交工程建议书
处室技术工程师进行工程查重
科委相关负责人审核之后给出答复
审核通过之后处室将不重复的工程上报给科委
科委将通过审核的工程作为储存工程放入工程储藏库中
1.2工程申请阶段
工程申请的过程如下:
科委向承当单位发布申报工程的消息
承当单位依据相关信息向科委提交工程任务书和实施方案
科委对提交上来的申报工程进行审查
工程通过审查后,由科委管理申报工程
工程立项实施
1.3工程验收阶段
工程验收的过程如下:
1.工程实施之后申报单位向科委提交年度报告,或者是在工程实施之后根据存在的问题对工程进行调整,向科委提交工程备案及年度报告
2.科委工作人员验收确认工程的经费使用情况
3.专家组进行工程评审工作
4.工程验收
工程的审核流程
工程审核过程如以下图:
说明:
用户在截止日期之前将工程提交。
审查员进行工程形式审查,审查合格,那么予以通过;审查不合格,用户进行修改,重新进行形式审查。
形式审查通过,审查员进行工程内容审核,审核合格,那么予以通过;审核不合格,用户进行修改,重新进行内容审核。内容审核中包含工程查重技术,不允许工程重复申报。具体见技术路线章节介绍。
内容审查通过,主管进行工程主管审核,审核合格,那么予以通过;审核不合格,用户进行修改,重新进行主管审核。
三次审核完成,即审核通过。
3.技术路线
3.1技术简介
传统的工程查重技术,均是选取关键词在工程内容中出现的频率来判断工程内容是否重复,如果关键词相近,可能造成查重误判的情况。
传统方案被称为SCAM查重技术,主要技术是通过待检测工程内容中某些字词的出现次数,可称之为关键词,把这些关键词及对应出现频率与库存特征库中的信息进行比对,如果相近似的程度超过一个设定的阈值,那么可判定此工程内容是重复或已浏览过的重复工程内容。在传统查重技术中,如果选定的关键词名称及数量不适宜,可能出现关键词非常近似,工程内容被误判成重复工程内容,造成工程内容被筛除而不能被用户浏览,不能得到所需信息,也就不能满足用户的准确需求。
因此,本技术方案对提取的关键词加以改良,不是简单依赖工程内容的某些关键词,而是对被检工程内容提取它的独特结构,称之为工程内容指纹,使其具有本工程内容唯一性,通过与工程内容指纹特征库中的指纹比拟,通过相似度来判断工程内容是否重复,减少了传统检测中只依赖关键词产生误判的情况发生,提高检测准确率。
①提取特征关键词,对工程内容进行预处理,设关键词用Ki(Q)(i=1,2,…N)表示,N为选取信息特征关键词的个数,用Ki(D)(i=1,2,…N)表示工程内容特征库的特征信息。
②将Ki(Q)与Ki(D)比拟计算,得到关键词数据的相似度s,即:
s=
③设定适宜的相似度阈值Ф,那么有:s≥Ф工程内容重复sФ非重复可以看出,传统的SCAM技术的算法简单,判断工程内容是否重复的操作步骤的关键是如何选取适宜的工程内容特征信息作为关键词。如果用户浏览了相近似的工程内容,关键词就会非常相近,相似度会接近〔1〕出现误判为相似工程内容,结果是工程内容被错误查重。
改良的技术路线如下:设想把依赖工程内容关键词改为工程内容的独特结构,就好比指纹一样具有唯一性。因此,把工程内容中的关键词、位置向量、出现次数作为该工程内容的特征信息,称之为工程内容指纹,在与特征库中的指纹进行比拟,通过比拟提高查重的准确率及效率,防止了只依赖关键词查重而造成误判的情况发生。
〔2〕工程内容指纹算法工程内容重复主要是指工程内容中的正文内容,不包括工程内容导航栏、视频、图片、广告信息等条目。如果工程内容中的正文可能存在转载方式,与原工程内容一致,就容易误判为重复。
3.1技术路线详述
查重的流程如以下图:
工程内容预处理查重之前的工作是对工程内容中各种链接、图片、停用词信息删除,去掉所有噪声,只保存工程内容的纯文本信息。下一步要对纯文本信息进行统一的归一化处理,利用语法规那么,对标点符号、英文字母、空格、回车符等分隔符进行一致优化,保证对文本的信息提取时的准确量化。
为了提取工程内容指纹信息,运用信息检索技术,得到被检测工程内容中关键词的频率集合F={F1,F2,F3…Fm},从中选取前n个〔nm〕
文档评论(0)