- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
相关文献功能分析
“相关性”(Relevance)是信息检索理论、乃至情报学研究中的核心概念,马费成[1]则将相关性原理归为情报学的6个基本原理之一。国内已有为数不多的关于相关性研究的论文,但大都是对国外研究成果的介绍和讨论,或在理论层面对已有模型进行改进,很少涉及实证性研究。本文着眼于相关性理论在信息检索系统中的一种具体实现形式——相关文献(Related Articles)功能,结合国内外检索系统各自的特点,尝试从多个角度对其进行分析。
1.基本概念
相关性理论研究始于上世纪50年代,尽管到目前为止还没有形成一个明确统一的定义,但一般都将其分为系统相关和用户相关两个层次。用户相关旨在探讨检出文档如何满足最终用户的实际需求,是近年来研究的主要趋势。但用户的相关性判定是一个复杂、模糊且十分主观的问题,不仅因人而异,受到用户的认知结构、心理、动机及所处的情景等多方面因素的影响,即使是同一个人在不同时间对同一组实体的相关判定也可能不同。Mizzaro[2]是相关性研究的集大成者,他提出一个包含信息资源、用户信息需求、时间和构件的四维相关性概念模型,对以往研究做了很好的总结。但正如王家钺[3]所认为的,虽然将相关性的各个方面分析得淋漓尽致,也将相关性置于无法准确测度的境地。
系统相关不考虑用户的主观需求,属于以系统为出发点的客观概念。一般所说的系统相关是指查询和文档之间的相关,即信息检索系统针对用户查询所检出的文档与查询之间的一种匹配关系[3]。目前广泛使用的大型数据库检索系统对这种相关的支持效果不太理想,如基于布尔模型的检索系统一般以时间顺序输出文献,不能按照相关度进行排序,故与用户查询最相关的文献并不一定排在最前面。国内通常可以按照查询词在文档不同位置出现的不同次数而实现简单的相关排序功能。为了弥补这种不足,随之出现了文档和文档之间的相关,它可以视为查询和文档相关的一种特例,即它的查询不是通常的由查询词构造的检索表达式,而是一篇文档。这种文档相关在检索系统中的具体实现形式就是本文要尝试探讨的“相关文献(Related Articles)”功能。相关层次示意图见图1。
用户相关 语义和语用相关
相关 文档和文档的相关
系统相关 形式相关
查询和文档的相关
图1 “相关”层次示意图
2.相关文献功能的分类及实现机制
从文献计量学角度来理解,文献之间的相关可以分为两种基本类型:一是外部特征相关,即文献在著者、研究机构、出处以及参考文献等外部特征上的相关;二是内容特征相关,即文献之间在内容上的关联程度,通过体现文献内容的特征项(作者关键词、文本关键词、主题词)或者分类号反映出来。按照内容相关字段来源的不同,内容特征相关又可以分为简单内容相关和完全内容相关,前者是只基于作者关键词或主题词或分类号的相关,后者则是综合考虑了多种内容特征项的相关。
基于外部特征和简单内容特征的相关文献功能,一般都是提取源文献相应的检索字段,再到数据库中重新进行的二次检索。例如,EMBASE.com的“Related Articles”是将当前文献的主要医学主题词和药物主题词进行组合,重新进行了一次“OR”检索;Web of Science的“Related Records”输出的是当前文献的所有耦合文献;万方的“相似文献”是取当前文献作者关键词中的前两个重新进行检索;维普的“主题相关”返回的是与当前文献有相同中图分类号的所有文献。上述相关文献检索的过程都是实时的,由于不需要预先进行处理,系统实现比较容易。
基于完全内容特征的相关文献功能由于涉及的特征项较多,一般通过文本相似计算的方法来实现,这种相关功能的典型代表是PubMed的“Related Articles”功能。PubMed进行文本相似计算涉及的特征项包括Mesh词和从标题、摘要中抽取的文本关键词,对于每个特征项,不仅考虑其在一篇文献内部出现的次数,还考虑其在整个数据库中的文献频率,最后通过向量点积公式获得两两文献间的相似度值。一旦一篇文献与数据库中其他文献彼此间的相似度都被计算出来,就可以按相似度值倒序输出该文献的相关文献。由于计算过程非常复杂且耗时,因此这种相关功能的实现需要经过预先处理,在建立文献相关性数据库(Related Articles Database, RAD)的基础上提供相关文献检索服务。
3.相关文献功能的作用
3.1 揭示文献间的纵向和横向联系
相关文献功能基于外部或内容特征揭示出一篇文献的相关文献,而这些相关文献又各自有自己的相关文献,由此形成一个纵横交错的相关文献网络。
文档评论(0)