lecture04—feedback.ppt

下载文档

16
0
约 58页
2017-04-15 发布于四川
举报
版权申诉
保障服务

lecture04—feedback.ppt

1、本文档共58页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

lecture04—feedback

* Global vs. local context analysis Global analysis: use the whole document collection to calculate term relationships Local analysis: use the query to retrieve a subset of documents, then calculate term relationships Combine pseudo-relevance feedback and term co-occurrences More effective than global analysis 基于局部分析的查询扩展基于局部聚类(local clustering)的方法基于局部上下文分析(local context analysis, LCA)的方法基于局部聚类(local clustering)的方法基本思路利用局部文档对term进行聚类，即将相关的term聚在一起，聚类的结果称为一个个簇(cluster)，于是利用簇中的相关term对查询q进行扩展。关键：定义term之间的相似度，不同的相似度定义得到不同的簇。三种簇定义：关联簇Association clusters 度量簇Metric clusters 标量簇Scalar clusters 关联簇局部文档的向量表示矩阵，其中每个aij=f(ti,dj)，即原始TF 矩阵AAT称为关联矩阵(association matrix)，其中的第u行、第v列元素cu,v表示的是tu和tv的相似度(即A中第u行、第v行对应的向量的相似度) 关联簇 cu,v实际上表示的是tu、tv在局部文档中共现(Co-occur)的频度可以将cu,v进行归一化，得到因此，对于查询q的某个term qi，可以选择在归一化关联矩阵其所在行中相似度较高的多个term进行扩展。即：选择与qi最相关(共现)的term对qi进行扩展一个关联簇的例子度量簇关联簇中只考虑共现，没考虑共现时两term的位置距离，实际上相距较近的term理应更具有关联性。可以定义两个term tu、tv的某个出现对之间的距离为r(tu,tv)，若tu、tv在同一篇文档内，则定义r为位置距离，否则定义r为无穷大。同样，我们可以构造关联矩阵，其中tu和tv的相关度定义为：即将所有的出现对之间的距离进行求和，显然这个值不会超过Nu*Nv，Nu、Nv分别是tu和tv在所有文档中出现的总次数。度量簇可以对cu,v进行归一化，得到对于查询q=q1q2…，对每个qi从归一化关联矩阵中选择和qi最相近的几个term进行扩展。标量簇将tu用其它term与tu的关联度来表示,表示为一个向量。对tv同理。tu与tv的关联度则用两个向量的夹角表示。基于簇的查询扩展簇中的不同term互称为邻居(neighborhood)，或者称为有哪些信誉好的足球投注网站同义项(searchonym)，有别于语法意义上的同义词。查询扩展方式：对于q中的每个term，都选择和该term最近的多个term进行扩充。实验表明：度量簇效果好于关联簇，说明位置信息是有用的。基于局部分析的查询扩展基于局部聚类(local clustering)的方法基于局部上下文分析(local context analysis, LCA)的方法基本思想局部聚类的缺点：计算的是q中每个term和所有term之间的相似度，而不是计算q和所有term的相似度。应该将q看成一个整体！ LCA的思想：在局部文档中计算出和查询q最相近的term进行扩展。 LCA是UMass的Jinxi Xu于1996年提出的。本质上说LCA是融合了局部分析和全局分析的方法。 LCA的三个步骤第一步，将所有文档都进行分段(比如300字节一段)，并将每个段落看成检索对象，用原始查询q检索，返回和q最相似的n个段落(passage) 第二步，计算这n个段落中的每个概念c(通常就是term)和q的相似度sim(q,c) 第三步，选择sim值最高的m个概念加入到原始查询中。其中加入的概念的权重为1-0.9*i/m，i为其在m个概念中的排序序号。原始查询的term的权重设置为一个较大的值，比如2。 q和c的相似度计算首先定义c和某个term ki的相似度，其中pfi,j、pfc,j分别表示在第j个段落中ki及c的出现次数。（局部共现）然后定义c和q的相似度其中，idfi、idfc分别表示基于段落计算的ki和c的idf LCA的使用 δ是用于平滑的常数，常常取近0.1的值。 sim(q,c)可以看成是利用TFIDF进行相似度计算的一个变