lecture04—feedback.ppt

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture04—feedback

* Global vs. local context analysis Global analysis: use the whole document collection to calculate term relationships Local analysis: use the query to retrieve a subset of documents, then calculate term relationships Combine pseudo-relevance feedback and term co-occurrences More effective than global analysis 基于局部分析的查询扩展 基于局部聚类(local clustering)的方法 基于局部上下文分析(local context analysis, LCA)的方法 基于局部聚类(local clustering)的方法 基本思路 利用局部文档对term进行聚类,即将相关的term聚在一起,聚类的结果称为一个个簇(cluster),于是利用簇中的相关term对查询q进行扩展。 关键:定义term之间的相似度,不同的相似度定义得到不同的簇。 三种簇定义: 关联簇Association clusters 度量簇Metric clusters 标量簇Scalar clusters 关联簇 局部文档的向量表示矩阵,其中每个aij=f(ti,dj),即原始TF 矩阵AAT称为关联矩阵(association matrix),其中的第u行、第v列元素cu,v表示的是tu和tv的相似度(即A中第u行、第v行对应的向量的相似度) 关联簇 cu,v实际上表示的是tu、tv在局部文档中共现(Co-occur)的频度 可以将cu,v进行归一化,得到 因此,对于查询q的某个term qi,可以选择在归一化关联矩阵其所在行中相似度较高的多个term进行扩展。即:选择与qi最相关(共现)的term对qi进行扩展 一个关联簇的例子 度量簇 关联簇中只考虑共现,没考虑共现时两term的位置距离,实际上相距较近的term理应更具有关联性。 可以定义两个term tu、tv的某个出现对之间的距离为r(tu,tv),若tu、tv在同一篇文档内,则定义r为位置距离,否则定义r为无穷大。 同样,我们可以构造关联矩阵,其中tu和tv的相关度定义为: 即将所有的出现对之间的距离进行求和,显然这个值不会超过Nu*Nv,Nu、Nv分别是tu和tv在所有文档中出现的总次数。 度量簇 可以对cu,v进行归一化,得到 对于查询q=q1q2…,对每个qi从归一化关联矩阵中选择和qi最相近的几个term进行扩展。 标量簇 将tu用其它term与tu的关联度来表示,表示为一个向量。对tv同理。tu与tv的关联度则用两个向量的夹角表示。 基于簇的查询扩展 簇中的不同term互称为邻居(neighborhood),或者称为有哪些信誉好的足球投注网站同义项(searchonym),有别于语法意义上的同义词。 查询扩展方式:对于q中的每个term,都选择和该term最近的多个term进行扩充。 实验表明:度量簇效果好于关联簇,说明位置信息是有用的。 基于局部分析的查询扩展 基于局部聚类(local clustering)的方法 基于局部上下文分析(local context analysis, LCA)的方法 基本思想 局部聚类的缺点:计算的是q中每个term和所有term之间的相似度,而不是计算q和所有term的相似度。 应该将q看成一个整体! LCA的思想:在局部文档中计算出和查询q最相近的term进行扩展。 LCA是UMass的Jinxi Xu于1996年提出的。本质上说LCA是融合了局部分析和全局分析的方法。 LCA的三个步骤 第一步,将所有文档都进行分段(比如300字节一段),并将每个段落看成检索对象,用原始查询q检索,返回和q最相似的n个段落(passage) 第二步,计算这n个段落中的每个概念c(通常就是term)和q的相似度sim(q,c) 第三步,选择sim值最高的m个概念加入到原始查询中。其中加入的概念的权重为1-0.9*i/m,i为其在m个概念中的排序序号。原始查询的term的权重设置为一个较大的值,比如2。 q和c的相似度计算 首先定义c和某个term ki的相似度,其中pfi,j、pfc,j分别表示在第j个段落中ki及c的出现次数。(局部共现) 然后定义c和q的相似度 其中,idfi、idfc分别表示基于段落计算的ki和c的idf LCA的使用 δ是用于平滑的常数,常常取近0.1的值。 sim(q,c)可以看成是利用TFIDF进行相似度计算的一个变

文档评论(0)

shaoye348 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档