- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种专利自动推荐方法算法设计
一种专利自动推荐方法算法设计 摘 要 针对中学生创新活动的不断开展以及科技研发人员从事创新活动而需要频繁检索专利的需求,要为自己的发明和设计申请专利,要从已经有的发明和创造中吸取有益的营养,我们都需要对现有专利进行查询,然而目前专利检索智能程度不高,本文提出一种专利智能推荐算法。算法的输入是用户输入的检索内容,输出结果中不仅包括检索系统输出的专利还包括一批推荐的专利。本算法首先实现专利间的关联,进而计算专利关联度,并根据关联度对推荐专利进行排序,构成一个有序的推荐专利集合。本设计要解决的技术问题是要在已有专利检索平台的基础上根据专利检索者提供的检索内容,实现对与专利检索平台返回结果相关的其他专利的自动推荐。
关键词 专利推荐 关联度 推荐算法
中图分类号:G064 文献标识码:A
在我国,较有权威和影响力的专利检索网络平台包括:中国国家知识产权局网站()、中国知识产权网()、中国专利网(patent. Com等七大检索平台以及中国期刊网()。这七大专利检索平台采用的检索形式与传统信息检索类似,采用字段检索,输入检索词或按照“*” (与)、“+”(或)、“一”(非)等组成字段内或字段间逻辑关系式。这些字段包括:专利号、专利名称、摘要、国际分类号等。
目前主流的推荐算法主要包含以下几大类:基于内容的推荐,协同过滤的推荐,基于知识的推荐和组合推荐。仲伟炜通过跟踪和记录用户的访问操作行为,分析专利查询者经常一起查阅的专利文献,利用关联规则来分析专利文献的相关性,以实现专利文献的个性化推荐。该算法本质上属于协同过滤推荐,需要跟踪大量用户的专利检索行为,所推荐专利是一群专利用户的共同兴趣。而对于科技研发人员来说,经常需要检索与本身研究目的相关的专利。通过专利检索,了解当前研究现状,同时拓展研究思路。在这种情况下以上文献提出算法将变得不再适应。
在我国,较有权威和影响力的专利检索网络平台包括:中国国家知识产权局网站()、中国知识产权网()、中国专利网(patent. Com)、中国专利信息网()等七个检索平台。这七个专利检索平台采用的检索形式与传统信息检索类似,采用字段检索,输入检索词或按照“*” (与)、“+”(或)、“一”(非)等组成字段内或字段间逻辑关系式。这些字段包括:专利号、专利名称、摘要、国际分类号、发明人、申请人、公开日等。根据以上检索网络平台这些字段特点,本文提出的算法向用户推荐专利标题以及摘要中不包含检索词,但其在内容上又和检索词存在一定语义关联的专利。本文提出的算法将依据类容上的关联度推荐,在已有专利检索平台的基础上根据专利检索者提供的检索内容,实现对与专利检索平台返回结果相关的其他专利的自动推荐。
一、专利自动推荐方法相关概念及设计思想
(一)目标专利特征向量生成。
首先根据用户输入的检索式通过某个专利检索平台获得一个专利集合,称为C,提取C中各篇专利的专利名、专利分类号、专利摘要等信息,然后采用下面的方法提取C中专利的目标专利特征向量:
1、提取C中全部专利的专利分类号所覆盖的专利分类号的最长的公共部分,设此字符串为Si,此类字符串的数量为m,并根据Si将C中专利进行分组,也就是有C=Ci;
2、根据C中专利的分组,分别提取各组Ci(1≤i≤m)中各个专利的摘要;然后对各摘要实施分词;过滤掉量词和副词等词语后,留下名词和动词两类词语;然后统计各个词语出现的总频率;按词频从高到低排序,取前K个词语对应的词频,构成各组对应的目标专利特征向量TFi(1≤i≤m),将这K个词语构成的集合分别定义为词表Vi(1≤i≤m)。
(二)推荐专利集生成。
1、根据专利分类的等级结构――部、大类、小类、大组和小组, 确定每个最长的公共部分Si(1≤i≤m)所覆盖的专利分类等级;
2、对各个专利分组Ci中的各专利的标题进行中文分词,过滤掉量词、副词等语义表达能力不强的词语,留下的词性为动词和名词的词构成各组专利对应的检索词集合Wi(1≤i≤m);
3、利用检索词集合Wi(1≤i≤m)中的各个词,通过专利在线检索平台在专利分类号=Si+*’ (1≤i≤m)条件下再进行检索,得到专利集合(1≤i≤m)。从而得到推荐专利集合Ci=-Ci(1≤i≤m)。
4、在1中,其特征在于:第一个关键步骤中,提取C中全部专利的专利分类号所覆盖的专利分类号的最长的公共部分,以实现对C中专利的分组。第二个关键步骤中,利用检索词集合Wi(1≤i≤m)中的各个词,通过专利在线检索平台在专利分类号=Si+*’ (1≤i≤m)条件下再进行检索,得到专利集合(1≤i≤m),从而得到推荐专利集合Ci=-Ci(1≤i≤m)。
二、具体实施算法描述(如图1)
(一)专利数据
文档评论(0)