- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国区域发明者流动数据挖掘探究
[摘要]追踪人才流动轨迹、探究人才流动规律备受关注,专利发明者可为人才流动研究奠定数据基础.基于中国知识产权局2000—2009年公开的发明申请专利,设计了发明者姓名消歧算法,挖掘了流动发明者信息,探讨了东部、东北、中部、西部四大区域的发明者流动现状及趋势.研究表明,文章中使用的算法具有合理性,可有效提取中国专利的流动发明者.
[关键词]专利统计;姓名消歧;发明者流动;区域;中国
一、引言
人才是建设创新型国家的中坚力量,其流动将导致知识的转移和溢出[1].日益频繁的人才流动现象,加快了不同创新主体对新知识与技能的获取、吸收和整合,带动了其创新水平和能力的变化.周德禄[2]指出,人才流动实现了人力资源的再配置,建立健全人才流动机制以促进人才有效流动是获得创新收益的基本路径.故追踪人才流动轨迹、探究人才流动规律具有重要的理论和实践意义.但个体数据的可获得性制约着该研究领域的发展.专利发明者可为探析人才流动奠定数据基础.通过梳理发明者流动的相关研究,朱容辉等[3]指出,学术界就发明者流动概念的界定基本达成共识,认为发明者流动即发明者在不同组织中任职,可通过追踪同一发明者连续拥有专利的申请(或权利)人的变化进行推断.但专利发明者未有唯一化标识,故对发明者姓名进行消歧是考察发明者流动的先决条件.学者们多基于美国专利与商标局数据库(USPTO),或欧洲专利局数据库(EPO),探讨了该问题,且为满足大规模数据分析的需要,启发式算法逐渐应用.因语言、文化等差异,已有的姓名消歧算法对欧美等西方国家发明者的识别效果较好,对中国等亚洲国家发明者的识别效果有待改善.借鉴现有研究成果,本文基于2000—2009年中国知识产权局(CNIPA)公开的发明专利信息,对发明者流动数据进行挖掘.后续结构如下:第二部分描述了数据来源并设计了流动发明者的识别算法;第三部分挖掘了流动发明者的信息,并探讨了区域层面的发明者流动现状及趋势;第四部分阐述了本文的主要研究结论与研究不足.
二、数据与研究方法
使用CNIPA数据库2000—2009年公开的发明专利,在根据专利已有信息消除发明者姓名歧义的基础上,对中国区域间的发明者流动情况进行了实证分析.
(一)发明者姓名消歧
1.提取专利关键字段.叶作亮等[4]将专利文献信息划分为类值与文本两大属性.前者以字符形式展现,便于数据分析,包括技术分类号、发明者等.后者以一篇或一段文本出现,数据处理过程较为复杂,包括专利名称、摘要、全文等.借鉴现有文献中用于发明者姓名消歧的专利关键字段并考虑数据的可操作性,本文选取公开(公告)日、发明(设计)人、主分类号、地址4个字段.其中,公开(公告)日可用于追踪发明者流动产生的时间,发明(设计)人提供了参与技术创新的人员署名情况,主分类号提供了专利所属技术领域的信息,地址可用于追踪发明者的流动方向.需指出,本文搜集的专利数据按公开(公告)日排序,故以该日期而非申请日对发明者的流动时间进行推断.2.构建发明者—专利实例.提取专利中的公开(公告)日、发明(设计)人、主分类号、地址4个字段,并基于发明(设计)人构建了发明者—专利实例(inventorGpatentinstances)[5],即根据专利发明者署名将一条专利拆分成若干条专利.3.关键字段相似度计算首先,计算了发明者的相似度,由两条专利拥有共同发明者姓名数量占合作发明者姓名数量的比值进行度量,见式(1).SIMIt=(Mi∩Nj)(Mi∪Nj)(1)式中,SIMI1代表发明者的相似度,Mi、Nj代表专利i、j拥有合作者姓名的集合.其次,计算了主分类号的相似度,通过比对两条专利主分类号的前三位进行测度.若前三位完全相等,则相似度SIMI2取值为1,否则为0.最后,基于最小编辑距离(MinimumEditDistance)算法[6]计算了地址相似度.两个专利地址字段的最小编辑距离,是指将一专利地址字段转换为另一专利地址地段所需的最小编辑次数.编辑距离越小,表明两个字符串越相似;反之,越不相似.4.关键字段的权重赋予综合相似度的计算公式见下:SIMIt=∑3i=1wi×SIMIi(2)式中,wi代表权重,SIMIt代表综合相似度.若SIMIt大于一特定阈值,则认为是同一发明者;否则,不是同一发明者.基于人工识别的发明者姓名消歧信息[7]为各字段赋予了权重,见式(3):SIMIt=2×SIMI1+0.1×SIMI2+1.5×SIMI3(3)
(二)发明者流动挖掘
在为发明者赋予唯一标识码的基础上,进一步挖掘了中国四大区域即东部、东北、中部和西部的发明者流动信息,东部包含京津冀等省区,东北包含辽吉黑,中部包含晋皖赣等省区,西部包含陕甘宁等省区.此时,专利关键字段共计有6个,分别是唯一标识码、发明者姓名、公开(公告)日
文档评论(0)