ectre7system 第7讲 完整有哪些信誉好的足球投注网站系统中的评分计算 现代信息检索导论 教学.ppt

ectre7system 第7讲 完整有哪些信誉好的足球投注网站系统中的评分计算 现代信息检索导论 教学.ppt

  1. 1、本文档共93页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ectre7system 第7讲 完整有哪些信誉好的足球投注网站系统中的评分计算 现代信息检索导论 教学

并不对所有文档进行排序,而只需要挑出最高的K个结果。 索引去除。。。从查询词角度,只考虑高idf查询。。。从文档角度,只考虑包含多个查询词的文档。。。。 刚才介绍的方法并没有对倒排索引特别是倒排记录表进行特殊的处理。。下面介绍一种对倒排记录表进行特殊处理的方法。 只对胜者表中的文档进行评分处理。 刚才介绍的都是与查询有关的得分(与t有关),实际上 统一排序方法。 索引分层的思想 刚才介绍的方法中,倒排记录表的排序通常是统一的。。。如均采用文档ID或者静态质量分来排序。。。下面介绍当倒排记录表的排序不统一时的情况,比如wftd排序,每篇文档的次序没有可比性。。 反映出 现代信息检索 将g(d)排序和胜者表相结合 对每个词项维护一张胜者表,该表中放置了r篇g(d) + tf-idftd 值最高的文档 检索时只对胜者表进行处理 现代信息检索 高端表(High list)和低端表(Low list) 对每个词项,维护两个倒排记录表 ,分别成为高端表和低端表 比如可以将高端表看成胜者表 遍历倒排记录表时,仅仅先遍历高端表 如果返回结果数目超过K,那么直接选择前K篇文档返回 否则,继续遍历低端表,从中补足剩下的文档数目 上述思路可以直接基于词项权重,不需要全局量g(d) 实际上,相当于将整个索引分层 现代信息检索 方法四:影响度(Impact)排序 如果只想对 wft,d 足够高的文档进行计算 那么就可以将文档按照 wft,d排序 需要注意的是:这种做法下,倒排记录表的排序并不是一致的(排序指标和查询相关) 那么如何实现top K的检索? 以下介绍两种做法 现代信息检索 1. 提前结束法 遍历倒排记录表时,可以在如下情况之一发生时停止: 遍历了固定的文档数目r wft,d 低于某个预定的阈值 将每个词项的结果集合合并 仅计算合并集合中文档的得分 现代信息检索 2. 将词项按照idf排序 对于多词项组成的查询,按照idf从大到小扫描词项 在此过程中,会不断更新文档的得分(即本词项的贡献),如果文档得分基本不变的话,停止 可以应用于余弦相似度或者其他组合得分 现代信息检索 方法五: 簇剪枝(Cluster pruning) 随机选 ?N 篇文档作为先导者 对于其他文档,计算和它最近的先导者 这些文档依附在先导者上面,称为追随者(follower) 这样一个先导者平均大约有 ~ ?N 个追随者 Sec. 7.1.6 现代信息检索 查询处理过程 给定查询 Q, 找离它最近的先导者L 从L及其追随者集合中找到前K个与Q最接近的文档返回 现代信息检索 可视化示意图 Query Leader Follower 现代信息检索 为什么采用随机抽样? 速度快 先导者能够反映数据的分布情况 现代信息检索 一般化变形 每个追随者可以附着在b1 (比如3)个最近的先导者上 对于查询,可以寻找最近的b2 (比如4)个先导者及其追随者 现代信息检索 课堂练习 为了找到最近的先导者,需要计算多少次余弦相似度? 为什么第一步中采用 ?N 个先导者? 上一张讲义中的常数 b1, b2 会对结果有什么影响? 设计一个例子,上述方法可能会失败,比如返回的K篇文档中少了一篇真正的top K文档。 这在随机抽样下是有可能的。 现代信息检索 小结 g(d) 如PageRank Tfidf 如tf idf 查询 文档 胜者表 静态得分 * * 非docID的倒排记录表排序方法(1) 到目前为止:倒排记录表都按照docID排序 另外的一种方法:与查询无关的一种反映结果好坏程度的指标 例如: 页面d的PageRank g(d), 就是度量有多少好页面指向d的一种指标 (chapter 21) 将文档按照PageRank排序 g(d1) g(d2) g(d3) . . . 计算文档的某个组合得分 net-score(q, d) = g(d) + cos(q, d) 在这种机制下,能够在扫描倒排记录表时提前结束计算 * * 以文档为单位(Document-at-a-time)的处理 按照docID排序和按照PageRank排序都与词项本身无关(即两者都是文档的固有属性),因此在全局这种序都是一致的。 上述计算余弦相似度的方法可以采用以文档为单位的处理方式。 即在开始计算文档di+1 的得分之前,先得到文档di 的得分。 另一种方式: 以词项为单位(term-at-a-time)的处理 * * 以词项为单位(Term-at

文档评论(0)

seunk + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档