- 1、本文档共65页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
*和检索的类比新文章Q01作者1的文章02作者2的文章03作者N的文章04...05查询Q06文档D07文档模型MD08总体分布抽样文档的模型(风格)实际上是某种总体分布文档和查询都是该总体分布下的一个抽样样本实例根据文档,估计文档的模型,即求出该总体分布(一般假设某种总体分布,然后求出其参数)然后计算该总体分布下抽样出查询的概率*查询似然模型(QueryLikelihoodModel)模型推导:文档D的先验分布P(D)假定为均匀分布,则这一项可以去掉。P(D)也可以采用某个与查询无关的量,如PageRank。QLM中不考虑这一项。查询似然模型QLMQLM计算公式于是检索问题转化为估计文档D的一元语言模型MD,也即求所有词项w的概率P(w|MD)*QLM概念理解QLM中P(Q|D)本质上是P(Q|MD),不能把P(Q|D)称为文档D生成查询Q的概率文档D和Q都是某个总体分布的样本(实例),样本(实例)是不会产生样本(实例)的样本是不会再生成其他东西的,样本只能用来推断总体的某些信息,比如总体的某些未知参数(通过一篇文章来推断作者的风格)同样,不能把P(w|MD)或P(w|D)理解为“w在文档D中的概率”*QLM求解步骤根据文档D(样本),估计文档模型MD(总体),在一元模型下,即计算所有词项w的概率P(w|MD)计算在模型MD下生成查询Q的似然(即概率)按照得分对所有文档排序*MD的估计问题:已知样本D,求其模型MD的参数P(w|MD)。对于该参数估计问题,可以采用最大似然估计(MaximumLikelihoodEstimation,MLE)。MLE:使得观察样本出现概率(似然)最大的估计。一射击世界冠军和一菜鸟打靶,其中一人放一枪得到10环,请问是谁打的?显然世界冠军打的可能性大,也就是说这是使得10环这个事件出现概率最大的估计。*MD的MLE估计设词项词典的大小为L,则模型MD的参数可以记为:MLE估计:关键是如何求,也就是说假设这些参数已知的情况下,如何求上述概率。*两种文本生成模型:多元贝努利模型(概率模型BIM中使用):D是抛L个(L是词项词典的大小)不同的硬币生成的,每个硬币对应一个词项,统计所有向上的硬币对应的词项便生成文本D。多元贝努利模型中的参数是每个硬币朝上的概率,共有L个。多项式模型:D是抛1个L面的骰子抛|D|次生成的,将每次朝上的那面对应的词项集合起来便生成文本D。QLM在1998年提出时采用的是多元贝努利模型,后来才有人用多项式模型并发现多项式模型通常优于贝努利模型。所以后来介绍QLM时大都用多项式模型。总体分布MD的假设#2022*文本生成的多项式模型D=(我,1,喜欢,1,基于,1,统计,1,语言,1,模型,2,的,1,信息,1,检索,1)添加标题D=我喜欢基于统计语言模型的信息检索模型添加标题D=(c(w1,D),c(w2,D),…,c(wL,D)),c(wi,D)是文档D中wi的出现次数添加标题检索过程就是根据观察样本D的估计Q的生成概率,即在已知抛n次的结果为文档D的条件下,抛m次的结果为查询Q的概率P(Q|MD)=?添加标题有一个L个面的不规则骰子,在第i个面上写着wi,,文档D=d1d2…dn可以认为是抛n次骰子得到的添加标题*多项随机试验多项(Multinomial)随机试验是二项随机试验(贝努利试验)的扩展,一篇文档D可以看成多项随机试验的结果多项随机试验由n次相互独立的子试验组成每个子试验含有L个互斥且完备的可能结果w1,w2,…,wL。如果L=2则是n重贝努利试验,对应二项分布B(n,p):P(X=k)=每个子试验中wi发生的概率不变,记为*多项随机试验(续)设随机变量X1,X2,…,XL用于记录n次子试验中w1,w2,…,wL的发生次数,实际记录值为x1,x2,…,xL,x1+x2+…+xL=n,如果某个wi不出现,则对应的xi=0则该多项随机试验中w1,w2,…,wL发生次数的联合分布是一个多项式分布:*求解条件极值问题,采用拉格朗日法求解,得到拉格朗日函数:对每个θi求偏导,令其为0,解得:MD的参数求解D=(我,1,喜欢,1,基于,1,统计,1,语言,1,模型,2,的,1,信息,1,检索,1)采用MLE估计有:P(我|MD)=P(喜欢|MD)=P(基于|MD)=P(统计|MD)=P(语言|MD)=P(的|MD)=P(信息|MD)=P
文档评论(0)