- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于引文上下文分析文献排序方法探究
基于引文上下文分析文献排序方法探究 摘要摘要:基于全文的信息检索技术很难准确进行主题识别,无法识别文章的重要性。利用引文上下文语义构建一个引文网络可达到提升检索效率和效果的目的。通过分析引文上下文,将相关文献排序,从而确定重要文献。引文上下文包含的语词如果与目标语词相关,那么就在两篇文献之间创建一个有向且赋予权重的边,然后在这个由不同边构成的网络里用相关的排序算法找出重要文献。该排序方法可通过给定检索语词找出重要文献,即便检索出的文章中不含有既定检索词也同样成立,极大增加了文献检索的查全率和查准率
关键词关键词:引文分析;引文网络;文献排序
DOIDOI:10.11907/rjdk.171127
中图分类号:TP391
文献标识码:A文章编号文章编号2017)005014603
0引言
研究人员在某个知识领域进行主题学习之前,需要充分掌握有关该主题的相关知识,找出该领域的核心文献,引文索引是一个非常有用的导航检索工具。有些引文索引系统提供了检索全文的平台,而有些引文索引可在不需要获得全文的情况下检索相关文献。引文充分反映了某一篇文献被引次数的情况,而引用次数排名靠前的文章,在一定程度上代表了这个领域的研究进展,可用来评估文献的重要性
引文索引是一个通过全盘扫描文献的过程,是根据学科领域主题找到重要文章的方法。文献文本中包含大量与主题不相关的文字,这些文字可能会在例子中,或者在反证里使用,使用全文检索方法会有各种各样的问题。例如用信息检索工具检索文章,文本中某个章节里包含“癌症”一词,结果所有文本中出现了“癌症”的语词都会被检索出来,虽然这个词与文章的主要论点不怎么相关。因此,检索工具无法帮助我们确定哪一篇文献是主题最相关的文献
引文还可以测量某一篇文献的影响。一个以文章为节点形成引文网络,如果文献i包含有文献j的引文,就可以将文献i与文献j用线连接在一起,然后根据点入度(例如引用数量)来给检索出来的文章加权排序,从而形成一个引文网络,该网络可以通过文献集合来确定其中最重要的文献
引文上下文是围绕在参考文献附近用来参考其它科学文献的文本[1]。引文上下文是确认一篇文献主要研究意义的重要方法,因为作者是通过简明扼要的引文来参考其他人的文献。文章越是被相同的语词引用,就表示这篇文章在这个主题领域里越重要
引文上下文通常是由特定且被定义的文字组成。绝大多数情况下,引文上下文是对被引文献的一个高度概括。换言之,引文上下文即是表征被引文献的关键语词。引文上下文分析提供了在没有获取全文的情况下,也可以去推论被引文献主要观点的方法
引文上下文对于文献的撰写十分重要,体现后来研究者对前人工作的借鉴与认可,为文献与文献之间建立了一条知识纽带[2]
本文根据论文主题词找出重要文章,使用从引文上下文中提取语词来创建上下文语境的引文网络。在这个网络中基于Schwartz等[3]所提出的网络分析方法,找到最重要的文章
文本内容相似性也可以提高文献检索的准确度和效率[4]。如果有两个密切相关的概念C1和C2,可能一篇文章一直在谈论C1而从未提及C2。如果全文检索,C2是不会被检索出来的
1相关工作
1.1引文上下文
S.Bradshaw[5]提出文档索引模型(Reference Directed Indexing,RDI),RDI模型的原理是:抽取引用句里的语词作为检索式,然后对文档进行标引。该模型采用一个固定的窗口――引文上下文两侧约50~100字。然后根据引文创建一个索引词表。当某些语词频繁出现,RDI值就会增加。创建完所有的索引数据集后,对给定的查询检索式,RDI会首先检查它包含查询的所有语词在其索引列表中的文章,然后根据RDI值进行排列。最后在?z索排名前十的文章里,检查有多少篇是基于RDI模型返回的相关文献,并将其与全文检索方法对比
文献之间的连接关系不仅存在于科学文献中,而且大量存在于网页中。Ritchie等[6]探讨了网络和科学文献之间的相似性,指出超链接不能完全类比引文,因为超链接的数量很多,论文的引用数却以某种方式存在限制,它们各不相同。Aljaber等[1]也在网页和科学引文之间找到了一些相似性
引文上下文还可以用来概括文章。Radev等[7]使用ngram模型从引文上下文数据集中提取关键语词,然后用这些关键短语构建摘要。还有些学者会将科技文献的引文根据文章的概念性、可操作性、组织性、革命性等进行分类[8]
Aljaber等[1]对如何确定引文上下文以及如何将引文上下文与相关的引文匹配,采用了一个简单而有效的方法――将预定窗口大小里引文周围的语词作为数据。他们尝试了不同的窗口大小,发现有50个字引文的窗口是文档聚类最佳的引文
文档评论(0)