LDA课件.ppt

下载文档

69
0
约2.81千字
约 16页
2017-06-14 发布于江苏
举报
版权申诉
保障服务

LDA课件.ppt

1、本文档共16页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

LDA课件

LDA 1.基础知识 1.1多项式分布 1.2共轭先验分布 1.3dirichlet分布 1.4Bayesian Network 1.5topic model 2.LDA 3.A Word Position Related LDA LDA 1.1多项式分布 1.二项分布设试验E只有两个可能结果A和非A，且P(A) = p，即A的概率是p，今将试验E独立重复地进行n次，以随机变量X表示n次试验中A发生的次数，则X服从参数为n,p的二项分布，记为X~B(n, p)。它的分布律为P(X=k)=C(k,n)*p^k*q^(n-k),???? k=0, 1, 2, ... , n. q = 1-p 1.1多项式分布 2.多项式分布设试验E有k种可能结果A1, A2, ... . Ak,其概率为p1, p2, ... , pk. (p1+p2+...+pk = 1)，今将试验E独立重复地进行n次，我们关心的是在这n次试验中A1, A2, ... . Ak发生的次数，记为向量X = (X1, X2, X3, .... , Xk)，(X1+X2+...Xk=n)。则X服从参数为n, p的多项式分布。p=(p1, p2, ... , pk).其概率密度为： 1.1多项式分布 3.贝叶斯公式：其中，称为后验分布, 称为先验分布, 称为似然函数。 1.2共轭先验分布考虑某概率密度函数，要估计其中的参数t。按照Bayes学派的观点，参数 t ～ p(t).我们有p(t|X) ∝ p(X|t)p(t),这个式子说：在没有做任何观测时，我们对t的知识用先验分布p(t)表示。当观察到X 后，就通过该式将先验概率p(t)更新（计算）为后验概率p(t|X)，使我们对t的知识增加。若p(t)与p(X|t)有相同的函数形式，那么后验概率p(t|X)就与先验概率p(t)有相同的函数形式——这使得t的后验概率与先验概率具有相同的表达式，只是参数被更新了. 1.3dirichlet 假设我们在和一个不老实的人玩掷骰子游戏。按常理我们觉得骰子每一面出现的几率都是1/6，但是掷骰子的人连续掷出6，这让我们觉得骰子被做了手脚，而这个骰子出现6的几率更高。而我们又不确定这个骰子出现6的概率到底是多少，所以我们猜测有50%的概率是：6出现的概率2/7，其它各面1/7；有25%的概率是：6出现的概率3/8，其它各面1/8；还有25%的概率是：每个面出现的概率都为1/6，也就是那个人没有作弊，走运而已。用图表表示如下： 1.3dirichlet 我们所猜测的值，如果设为X的话，则表示X的最自然的分布便是Dirichlet distribution。设随机变量X服从Dirichlet分布，简写为Dir(α)，即X~Dir(α)。Α是一个向量，表示的是某个事件出现的次数。比如对于上例，骰子的可能输出为{1,2,3,4,5,6}，假设我们分别观察到了5次1~5，10次6，那么α = {5,5,5,5,5,10}。X则表示上例中的各种概率组合，比如{1/7,1/7,1/7, 1/7,1/7,2/7}；{1/8, 1/8, 1/8, 1/8, 1/8, 3/8}；{1/6, 1/6, 1/6, 1/6, 1/6, 1/6}，那么P(X)则表示了该概率组合出现的概率，也就是概率的概率 1.4Bayesian Network 联合概率P(a,b,c)=P(c|a,b)P(b|a)P(a)可以表示为如下图箭头表示条件概率，圆圈表意一个随机变量。 1.4Bayesian Network 对于更复杂的概率模型，比如由于有N个条件概率，当N很大时，在图中画出每一个随机变量显然不现实，这是就要把随机变量画到方框里：这就表示重复N个tn. 1.4Bayesian Network 在一个概率模型中，有些是我们观察到的随机变量，而有些是需要我们估计的随机变量，这两种变量有必要在图中区分开：如上图，被填充的圆圈表明该随机变量被观察到并已经设为了被观察到的值。 1.5 Topic Model Topic model的一个通式为 P(w|d) = sigma{ p(w|z)*p(z|d) } topic model，一般指的是两种分布：第一种就是topic~word的分布，就是p(w|z)。第二种是p(z|d)，这个是doc~topic分布。 1.5 Topic Model doc|----------------------------------------|?????????????????????? | ...??