- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LDA课件
LDA 1.基础知识 1.1多项式分布 1.2共轭先验分布 1.3dirichlet分布 1.4Bayesian Network 1.5topic model 2.LDA 3.A Word Position Related LDA LDA 1.1多项式分布 1.二项分布 设试验E只有两个可能结果A和非A,且P(A) = p,即A的概率是p,今将试验E独立重复地进行n次,以随机变量X表示n次试验中A发生的次数,则X服从参数为n,p的二项分布,记为X~B(n, p)。它的分布律为P(X=k)=C(k,n)*p^k*q^(n-k),???? k=0, 1, 2, ... , n. q = 1-p 1.1多项式分布 2.多项式分布 设试验E有k种可能结果A1, A2, ... . Ak,其概率为p1, p2, ... , pk. (p1+p2+...+pk = 1),今将试验E独立重复地进行n次,我们关心的是在这n次试验中A1, A2, ... . Ak发生的次数,记为向量X = (X1, X2, X3, .... , Xk),(X1+X2+...Xk=n)。则X服从参数为n, p的多项式分布。p=(p1, p2, ... , pk).其概率密度为: 1.1多项式分布 3.贝叶斯公式: 其中, 称为后验分布, 称为先验分布, 称为似然函数。 1.2共轭先验分布 考虑某概率密度函数,要估计其中的参数t。按照Bayes学派的观点,参数 t ~ p(t).我们有p(t|X) ∝ p(X|t)p(t),这个式子说:在没有做任何观测时,我们对t的知识用先验分布p(t)表示。当观察到X 后,就通过该式将先验概率p(t)更新(计算)为后验概率p(t|X),使我们对t的知识增加。若p(t)与p(X|t)有相同的函数形式,那 么后验概率p(t|X)就与先验概率p(t)有相同的函数形式——这使得t的后验概率与先验概率具有相同的表达式,只是参数被更新了. 1.3dirichlet 假设我们在和一个不老实的人玩掷骰子游戏。按常理我们觉得骰子每一面出现的几率都是1/6,但是掷骰子的人连续掷出6,这让我们觉得骰子被做了手脚,而这个骰子出现6的几率更高。而我们又不确定这个骰子出现6的概率到底是多少,所以我们猜测有50%的概率是:6出现的概率2/7,其它各面1/7;有25%的概率是:6出现的概率3/8,其它各面1/8;还有25%的概率是:每个面出现的概率都为1/6,也就是那个人没有作弊,走运而已。用图表表示如下: 1.3dirichlet 我们所猜测的值,如果设为X的话,则表示X的最自然的分布便是Dirichlet distribution。设随机变量X服从Dirichlet分布,简写为Dir(α),即X~Dir(α)。Α是一个向量,表示的是某个事件出现的次数。比如对于上例,骰子的可能输出为{1,2,3,4,5,6},假设我们分别观察到了5次1~5,10次6,那么α = {5,5,5,5,5,10}。X则表示上例中的各种概率组合,比如{1/7,1/7,1/7, 1/7,1/7,2/7};{1/8, 1/8, 1/8, 1/8, 1/8, 3/8};{1/6, 1/6, 1/6, 1/6, 1/6, 1/6},那么P(X)则表示了该概率组合出现的概率,也就是概率的概率 1.4Bayesian Network 联合概率P(a,b,c)=P(c|a,b)P(b|a)P(a)可以表示为如下图 箭头表示条件概率,圆圈表意一个随机变量。 1.4Bayesian Network 对于更复杂的概率模型,比如 由于有N个条件概率,当N很大时,在图中画出每一个随机变量显然不现实,这是就要把随机变量画到方框里: 这就表示重复N个tn. 1.4Bayesian Network 在一个概率模型中,有些是我们观察到的随机变量,而有些是需要我们估计的随机变量,这两种变量有必要在图中区分开: 如上图,被填充的圆圈表明该随机变量被观察到并已经设为了被观察到的值。 1.5 Topic Model Topic model的一个通式为 P(w|d) = sigma{ p(w|z)*p(z|d) } topic model,一般指的是两种分布:第一种就是topic~word的分布,就是p(w|z)。第二种是p(z|d),这个是doc~topic分布。 1.5 Topic Model doc|----------------------------------------|?????????????????????? | ...??
文档评论(0)