- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用户需求与文献加工和检索系统
的设计研究
光电技术发明审查部 周胜生
数据库是检索系统功能设计的基础。数据库的建设与检索系统的功能设计和检索者的检索习惯等密切相关,因此,在首先进行的数据库建设中要注意充分考虑检索系统的功能设计以及将来使用者的需求。本文拟从我局审查员日常使用的检索数据库/检索系统入手,研究在开发我局自己的文献数据库时,文献加工和检索系统设计中应该注意的问题。由于本文的主要研究目的是如何使文献加工更好地服务于检索系统和检索者,因此,下文所涉及的检索系统的设计及其现有检索数据库/检索系统的功能都是围绕文献加工而展开,并没有全面研究现有检索数据库/检索系统的其它功能。
一、当前检索系统中的关键词检索
在审查员使用较多的CPRS中,关键词检索实际上包括标引词(有时也称为“索引词”)、摘要(AB)、标题(TI)和独立权利要求1同时进行检索。在摘要、标题和独立权利要求1中进行文本有哪些信誉好的足球投注网站式检索(有时也称为“文本型检索”、“自由词检索”等)。此外,在CPRS的关键词字段中,该检索系统还提供同义词符“#”和前方一致符“%”。
目前,CPRS在关键词检索方面主要存在的问题有:
1. 该系统中没有提供可用于显示的关键词字段,因此,检索者无法浏览某一文献的标引词;
2. 虽然该系统提供同义词检索功能,但是,该系统本身没有给用户提供浏览、修改同义词库和自行选择同义词的功能,用户只能选择使用或不使用;
3. 不能提供精确组配的检索功能(例如:具体规定两个检索对象的前后顺序以及其间允许具体间隔多少个字等),只能使用表示简单、宽泛关系的逻辑“与”(AND)的检索功能;
4. 在标题、摘要和主权利要求的文本型检索中存在不正确地拆分词的问题,造成少数结果明显杂乱无关;
5. 数据库中的中国专利文献的一些摘要内容不全面、杂乱或用词不规范,不能准确地反映发明的主要内容,造成检索结果不准确、杂乱。
EPOQUE检索系统是目前我局审查员使用较多的另一检索系统,该系统主要用于外国专利文献的检索。在该检索系统下,目前可以检索EPODOC、WPI和PAJ三个摘要数据库,其中WPI数据库设置有关键词字段(即IW、IWW、AW和AWW),而其它两个数据库中都没有设置专门的关键词字段,因此,相应地在WPI数据库中,关键词检索实质上同时在标题(TI)、摘要(AB)和全部关键词字段中检索,而在EPODOC和PAJ数据库中仅仅在标题和摘要两者中同时进行检索。此外,在EPOQUE检索系统中关键词检索全部以类似于文本型检索1的方式处理,并提供精确组配的检索功能(即除了AND检索之外,系统还提供W/D、F/P/S等更加精确的连词符)。
EPOQUE检索系统与CPRS的主要区别有:
1. 在EPOQUE检索系统的三大摘要数据库(EPODOC、WPI和PAJ)中,关键词检索均是以类似于文本型检索的方式同时在标题和摘要(WPI数据库还包括关键词字段)中进行检索,而且都提供精确组配和模糊组配的检索功能,提高了检索的准确性;
2. WPI数据库中的摘要都是经过德温特公司专业人员改写,并且辅助以关键词字段,因此,关键词检索结果准确性高,EPODOC数据库中的摘要没有进行专门改写,但是,由于一个同族通常具有多份摘要,这也在一定程度上解决了摘要内容不全面准确的问题;
3. 提供同义词库(即EPOS库)查阅、浏览等辅助功能,检索者可以自行选择其所使用的同义词(EPO所使用的EPOS库中对于某一词,甚至有表达其各种同义词的完整检索式,审查员可以非常方便地直接使用这种检索式),系统不提供自动的同义词检索功能;
4. 在WPI数据库中检索者可以选择浏览每篇文献的任一关键词字段,其中IW和IWW分别是内容相同但不同属性(前者为关键字型,后者为文本型)的索引词,且该内容基本与经改写后的标题2基本对应,而AW和AWW分别是内容相同但不同属性的附加词,这些附加词通常是从申请文件中概括出来但更加准确地反映专利文献内容的词或词组;
5. 由于英文中单词为句子的最小单位,单词之间存在自然的分隔符(空格),因此,不存在像CPRS中由于不正确地拆分词而造成明显无关的检索结果。
经过进一步研究我们发现,在WPI数据库中IW、IWW字段和标题的内容基本对应(AW和AWW字段内容通常较少,属于摘要中没有的内容),其中IW和IWW内容完全相同,但前者为关键字型属性,后者为文本型属性(按照EPOQUE系统中关于关键字型字段和文本型字段的定义,这意味着前者只能进行精确匹配检索,后者则可以进行截词、组配等功能检索,但实际上目前两者都可以进行截词和组配检索)。虽然这两个关键词字段的内容与标题字段(TI)中的内容基本对应,但是,德温特公司还是设置了这两个字段。笔者认为,虽然设置IW和IWW这两个字段在检索的准确性和全面性上不会有太
文档评论(0)