信息检索几种相似度计算方法作对比.docx

信息检索几种相似度计算方法作对比.docx

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索几种相似度计算方法作对比

几种相似度计算方法作对比 句子相似度的计算在自然语言处理具有很重要的地位,如基于实例的机器翻译(Example Based Ma-chine Translation,EBMT)、自动问答技术、句子模糊匹配等.通过对术语之间的语义相似度计算,能够为术语语义识别[1]、术语聚类[2]、文本聚类[3]、本体自动匹配[4]等多项任务的开展提供重要支持。在已有的术语相似度计算方法中,基于有哪些信誉好的足球投注网站引擎的术语相似度算法以其计算简便、计算性能较高、不受特定领域语料库规模和质量制约等优点而越来越受到重视[1]。 相似度计算方法总述: 1 《向量空间模型信息检索技术讨论》,刘斌,陈桦发表于计算机学报,2007 相似度S(Similarity):指两个文档内容相关程度的大小,当文档以向量来表示时,可以使用向量文档向量间的距离来衡量,一般使用内积或夹角0的余弦来计算,两者夹角越小说明似度越高。由于查询也可以在同一空间里表示为一个查询向量(见图1),可以通过相似度计算公式计算出每个档向量与查询向量的相似度,排序这个结果后与设立的阈值进行比较。如果大于阈值则页面与查询相关,保留该页面查询结果;如果小于则不相关,过滤此页。这样就可以控制查询结果的数量,加快查询速度。 2 《相似度计算方法综述》 相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景,受限于数据规模、时空开销等的限制,相似度计算方法的选择又会有所区别和不同。下面章节会针对不同特点的应用,进行一些常用的相似度计算方法进行介绍。 内积表示法: 1 《基于语义理解的文本相似度算法》,金博,史彦君发表于大连理工大学学报,2007 在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。计算机对于中文的处理相对于对于西文的处理存在更大的难度,集中体现在对文本分词的处理上。分词是中文文本相似度计算的基础和前提,采用高效的分词算法能够极大地提高文本相似度计算结果的准确性。本文在对常用的中文分词算法分析比较的基础上,提出了一种改进的正向最大匹配切分(MM)算法及歧义消除策略,对分词词典的建立方式、分词步骤及歧义字段的处理提出了新的改进方法,提高了分词的完整性和准确性。随后分析比较了现有的文本相似度计算方法,利用基于向量空间模型的TF-IDF方法结合前面提出的分词算法,给出了中文文本分词及相似度计算的计算机系统实现过程,并以科技文本为例进行了测试,对所用方法进行了验证。这一课题的研究及其成果对于中文信息处理中的多种领域尤其是科技类文本相似度的计算比较,都将具有一定的参考价值和良好的应用前景。 2 《随机内积空间》,林熙,郭铁信发表于科学通报,2007 称(s,盘)为数域K上的以概率空间(口,a,)为基的随机内积空间(Randominnerproductspace,简RI空间),若s是数域K上的线性空间且映射盘:×_+L(口,)满足Vpg,∈,V∈K, (RIP一1):∈L(口)且((。)一0as。{P一0(中零元); (RIP一2):M(m)一”(m);as其中x¨表x的共轭随机变量。 (RIP一3):xo¨(∞)一aXⅢ(∞);a。s。 (RIP一4):X+。,,()一X,。,(∞)+Xf,,(∞)。a。s。 若还存在零测集Ⅳ,使得对所有E口\Ⅳ上述公理成立,则称0,。劈)为一致随机内积空间。在RIP空间中称x为p与9的随机内积。 余弦响亮度量方法: 1 《基于云计算的余弦向量度量法文本检索模型》,付永贵发表在情报科学,2012 目前信息检索技术在国内外已经取得了很大的究成果,为用户信息检索提供了很大的便利,具体体现在不同的检索模型的应用,比如布尔模型、扩布尔模型、向量空间模型、概率模型、潜在语义模、统计语言模型等等,在文本信息检索中向量空间型中的余弦向量度量法是应用相对广泛而且效率。 经典的余弦向量度量法文本检索模型(theclassiccosinevectormeasuringmethodtextre?trievalmodel)中查询和文本均被看成是由索引项构成的向量,比如对于有n个索引项的文本检索,可以由这n个索引项构成的空间向量来表示查询q和文本dj。则查询q可以表示为:q=(t1q,t2q,…,tnq),文本dj可以表示为:dj=(s1j,s2j,…,snj)。其中tkq,skj(1≤k≤n)分别表示查询q和文本dj的第k个索引项。在具体应用中通常用索引项在查询q和文本dj的权值来表示其在查询和

文档评论(0)

ktj823 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档