信息检索导论第十一章详解.pptx

下载文档 降价啦

17
0
约2.38千字
约 24页
2016-08-15 发布于湖北
举报
版权申诉
保障服务

信息检索导论第十一章详解.pptx

1、本文档共24页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

信息检索导论第十一章详解

Lecture-11 概率检索模型提纲 11.1 概率论基础知识 11.2 概率排序原理 11.3 二值独立模型(BIM) 11.4 概率模型的相关评论及扩展 (Okapi BM25 权重计算方法、基于贝叶斯网络的IR模型) 11.1 概率论基础知识随机试验与随机事件概率和条件概率乘法公式、全概率公式、贝叶斯公式随机变量随机试验：可在相同条件下重复进行；试验可能结果不止一个，但能确定所有的可能结果；一次试验之前无法确定具体是哪种结果出现。随机事件：随机试验中可能出现或可能不出现的情况叫“随机事件” 概率：直观上来看，事件A的概率是指事件A发生的可能性，记为P(A) 条件概率：已知事件A发生的条件下，事件B发生的概率称为A条件下B的条件概率，记作P(B|A) 乘法公式： P(AB)＝P(A)P(B|A) P(A1A2…An)＝P(A1)P(A2|A1)...P(An|A1…An－1) 全概率公式：A1A2…An是整个样本空间的一个划分贝叶斯公式： A1A2…An是整个样本空间的一个划分两事件独立：事件A、B，若P(AB)=P(A)P(B)，则称 A 、B独立三事件独立：事件A B C，若满足P(AB)=P(A)P(B), P(AC)=P(A)P(C),P(BC)=P(B)P(C), P(ABC)=P(A)P(B)P(C)，则称A、B、C独立多事件独立：两两独立、三三独立、四四独立…. 随机变量：若随机试验的各种可能的结果都能用一个变量的取值（或范围）来表示，则称这个变量为随机变量，常用X、Y、Z来表示 (离散型随机变量)： (连续型随机变量) 11.2 概率排序原理对查询q和文档集中的一篇文档d，假定变量Rd,q代表d和查询q是否相关，当文档d和查询q相关时Rd,q的取值为1，不相关时Rd,q的取值为0。在不造成上下文歧义的情况下，我们将Rd,q简记为R。于是，可以利用概率模型来估计每篇文档和需求的相关概率P(R=1|d,q)，然后对结果进行次序。这就是PRP。 11.3 二值独立模型 11.3 .1 排序函数的推导常数朴素贝叶斯条件独立性假设在给定查询的情况下，认为一个词的出现与否与任意一个其他词的出现与否是互相独立的常数用于排序的量称为RSV （retrieval status value，检索状态值） ct 是查询词项的优势率比率（odds ratio）的对数值。当查询词项出现在相关文档时，优势率为 pt/（1-pt）；当查询词项出现在不相关文档时，优势率为 ut/(1-ut)。优势率比率是上述两个优势率的比值，最后对这个值取对数。如果词项在相关和不相关文档中的优势率相等，ct值为0。如果词项更可能出现在相关文档中，那么该值为正。 ct 实际上给出的是模型中词项的权重查询文档的得分就是 11.3.2 理论上的概率估计方法对于输出结果为类别型（比如词项出现或不出现两个类别）的试验来说，往往可以通过事件发生的次数除以试验的总次数来从数据中估计出事件的概率。这被称为事件的相对频率。由于相对频率使得观察数据出现的概率最大，所以这种估计称为MLE（最大似然估计）。但是，如果我们只是简单地使用MLE，那么在观察数据中出现过的事件的概率估计值总是非常高，而那些没有在观察数据中出现的事件的相对频率则为0，这不仅低估了这些事件的概率值，往往也损害了模型本身，因为0乘以任何数得0。在减少出现事件的概率估计值的同时提高未出现事件的概率估计值的方法称为平滑（smoothing）。一种最简单的平滑方法就是对每个观察到的事件的数目都加上一个数α。这样得到的伪数目相当于在所有词汇表上使用了均匀分布作为一个贝叶斯先验 11.3.3 实际中的概率估计方法一、评估不相关文档有关的量二、评估相关文档有关的量 1、已知某些相关文档，利用这些已知相关文档中的词项出现频率来对 pt进行估计。 2、 Croft和Harper（1979）在他们的组合匹配模型（combination match model）中提出了利用常数来估计pt的方法。 3. Greiff （1998）pt会随dft的增长而增长 11.3.4 基于概率的相关反馈方法 11.4 概率模型的相关评论及扩展 11.4.2 词项之间的树型依赖 11.4.1 概率模型的评论在BIM模型中，假设： 11.4.3 Okapi BM25：一个非二值模型如果存在相关性判断结果 11.4.4 IR中的贝叶斯网络方法贝叶斯网络是通过有向图来表示不同随机变量之间的概率依