ectre7system 第7讲完整有哪些信誉好的足球投注网站系统中的评分计算现代信息检索导论　教学.ppt

下载文档 降价啦

52
0
约1.09万字
约 93页
2018-10-11 发布于湖北
举报
版权申诉
保障服务

ectre7system 第7讲完整有哪些信誉好的足球投注网站系统中的评分计算现代信息检索导论　教学.ppt

1、本文档共93页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

ectre7system 第7讲完整有哪些信誉好的足球投注网站系统中的评分计算现代信息检索导论　教学

并不对所有文档进行排序，而只需要挑出最高的K个结果。索引去除。。。从查询词角度，只考虑高idf查询。。。从文档角度，只考虑包含多个查询词的文档。。。。刚才介绍的方法并没有对倒排索引特别是倒排记录表进行特殊的处理。。下面介绍一种对倒排记录表进行特殊处理的方法。只对胜者表中的文档进行评分处理。刚才介绍的都是与查询有关的得分(与t有关)，实际上统一排序方法。索引分层的思想刚才介绍的方法中，倒排记录表的排序通常是统一的。。。如均采用文档ID或者静态质量分来排序。。。下面介绍当倒排记录表的排序不统一时的情况，比如wftd排序，每篇文档的次序没有可比性。。反映出现代信息检索将g(d)排序和胜者表相结合对每个词项维护一张胜者表，该表中放置了r篇g(d) + tf-idftd 值最高的文档检索时只对胜者表进行处理现代信息检索高端表(High list)和低端表(Low list) 对每个词项，维护两个倒排记录表，分别成为高端表和低端表比如可以将高端表看成胜者表遍历倒排记录表时，仅仅先遍历高端表如果返回结果数目超过K，那么直接选择前K篇文档返回否则，继续遍历低端表，从中补足剩下的文档数目上述思路可以直接基于词项权重，不需要全局量g(d) 实际上，相当于将整个索引分层现代信息检索方法四：影响度(Impact)排序如果只想对 wft,d 足够高的文档进行计算那么就可以将文档按照 wft,d排序需要注意的是：这种做法下，倒排记录表的排序并不是一致的(排序指标和查询相关) 那么如何实现top K的检索? 以下介绍两种做法现代信息检索 1. 提前结束法遍历倒排记录表时，可以在如下情况之一发生时停止：遍历了固定的文档数目r wft,d 低于某个预定的阈值将每个词项的结果集合合并仅计算合并集合中文档的得分现代信息检索 2. 将词项按照idf排序对于多词项组成的查询，按照idf从大到小扫描词项在此过程中，会不断更新文档的得分(即本词项的贡献)，如果文档得分基本不变的话，停止可以应用于余弦相似度或者其他组合得分现代信息检索方法五：簇剪枝(Cluster pruning) 随机选 ?N 篇文档作为先导者对于其他文档，计算和它最近的先导者这些文档依附在先导者上面，称为追随者(follower) 这样一个先导者平均大约有 ~ ?N 个追随者 Sec. 7.1.6 现代信息检索查询处理过程给定查询 Q, 找离它最近的先导者L 从L及其追随者集合中找到前K个与Q最接近的文档返回现代信息检索可视化示意图 Query Leader Follower 现代信息检索为什么采用随机抽样？速度快先导者能够反映数据的分布情况现代信息检索一般化变形每个追随者可以附着在b1 (比如3)个最近的先导者上对于查询，可以寻找最近的b2 (比如4)个先导者及其追随者现代信息检索课堂练习为了找到最近的先导者，需要计算多少次余弦相似度？为什么第一步中采用 ?N 个先导者？上一张讲义中的常数 b1, b2 会对结果有什么影响？设计一个例子，上述方法可能会失败，比如返回的K篇文档中少了一篇真正的top K文档。这在随机抽样下是有可能的。现代信息检索小结 g(d) 如PageRank Tfidf 如tf idf 查询文档胜者表静态得分 * * 非docID的倒排记录表排序方法（1）到目前为止：倒排记录表都按照docID排序另外的一种方法：与查询无关的一种反映结果好坏程度的指标例如: 页面d的PageRank g(d), 就是度量有多少好页面指向d的一种指标 (chapter 21) 将文档按照PageRank排序 g(d1) g(d2) g(d3) . . . 计算文档的某个组合得分 net-score(q, d) = g(d) + cos(q, d) 在这种机制下，能够在扫描倒排记录表时提前结束计算 * * 以文档为单位(Document-at-a-time)的处理按照docID排序和按照PageRank排序都与词项本身无关(即两者都是文档的固有属性)，因此在全局这种序都是一致的。上述计算余弦相似度的方法可以采用以文档为单位的处理方式。即在开始计算文档di+1 的得分之前，先得到文档di 的得分。另一种方式: 以词项为单位(term-at-a-time)的处理 * * 以词项为单位(Term-at

您可能关注的文档

文档评论（0）

seunk + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

ectre7system 第7讲完整有哪些信誉好的足球投注网站系统中的评分计算现代信息检索导论　教学.ppt