- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
概率混合模型
概率混合模型(1)
概率混合模型可以简单的理解为有多个(甚至是无数个)独立概率模型的凸组合(Convex Combination),由于概率混合模型使用多个独立的概率分布,它可以描述一个复杂的数据分布,无论数据分布的结构如何复杂,总可以通过增加成分的方式来描述数据分布的局部特性,因此概率混合模型成为最有效的密度工具以及最常用的聚类工具之一。
广义的混合模型的一般表达式如下:
(1)
其中为具有K个独立成分的混合模型,表示第k个成分,表示第k个成分的权重,且,由归一化条件,即。
当混合模型中的成分是独立的概率分布时,我们可以称之为概率混合模型。把换成,式(1)重写为下式
(2)
除了表示权重外,这里可以认为是的先验概率。如果是带参数的概率模型,可以用或代替,表示第k个成分的参数或参数集,为混合模型的参数集合。
用数学语言来描述概率混合模型的抽样过程。先用表示异质性数据集的隐含类别属性集合,用表示K个类别的先验概率,第k个类别的概率分布为,则异质性数据集的产生由两部分构成:
在K个类别中抽样一次的多项式分布
第k个类别的概率分布
用数学表达为:
(3)
(4)
使用概率混合密度基于观测到的数据集进行聚类和密度估计,实质就是样本生成过程的逆过程。
概率混合模型样本生成的两个步骤:首先,从K个可能类别中按一定的分布抽出y,即选取类标签;然后对于该标签中成分按一定的概率分布抽出样本x。样本可以分成可观测部分x和不可观测的隐藏标签y,y属于隐含类别集合C。令x,y的联合概率分布为P(x,y),则x的边缘分布
(5)
将第k个类别的概率分布密度函数参数代入,同时用代替表示第k个成分在整个混合模型中所占的权重。式(5)即是式(2)。
下面介绍一下高斯(正态)分布,高斯分布一般表示为,其概率密度函数为
(6)
其参数集为。
假设高斯混合模型有K个成分,则高斯混合模型可以定义为
(7)
极大似然估计是数学模型模拟数据集的常用方法,最优参数由下式得到:
(8)
求此函数的最大值,可化为求目标函数偏导的跟求得,即
(9)
(10)
期望最大化算法提供一种迭代计算途径用于使用观测到的数据来估计不可观测的数据。假设我们所需要估算数据集的概率分布。我们只能观测到它的一部分,用表示可观测部分的集合,表示隐含部分的集合,且,n=1,2,...N。当隐含变量为连续变量时,可观测部分X概率分布可表示为
(11)
当隐含变量为离散变量时,可观测部分X概率分布可表示为
(12)
其中Z(X)表示满足X(Z)=X的Z的取值。本文只考虑隐含变量为离散的情况。
由模型参数为极大似然估计为
(13)
由于没有完整的数据Z用于计算,我们对于隐含变量的认识只能来源在给定参数数据和任意参数时它的后验概率,我们可以转而计算关于隐含变量后验概率的期望,即,为此,我们定义如下函数Q
(14)
其中表示当前给定的参数,Y的分布由观测变量X和当前参数唯一确定。
期望最大化算法的一般框架:
初始化模型参数;
循环下列两步直至不再变化:
E步骤:计算观测数据的后验概率;
M步骤:寻找新的使式(14)最大。
下面以高斯混合模型为例,用期望最大化算法求解极大似然估计。完整数据(X,Y)的极大似然估计
(15)
两边取对数,并建立Q函数
(16)
条件期望即为观测变量X的后验概率,根据贝叶斯定理及后验概率总和为1的约束条件得到:
(17)
对Q求偏导可求出。
增量式混合模型是一种常见的在线学习模型,它能够用新颖的样本对当前的模型进行更新。此文提出一种基于“一般到特定”的学习策略递归式混合模型。
假定有Z个离线学习任务,每个学习任务都有一定的样本域,我们基于所有离线任务样本域中正样本的集合(可以人工筛选),学习一个关于待测类概率混合模型。我们把基于离线学习任务中正样本集合得到的概率混合模型称作“一般模型”。对于在线获得的特定样本域X,必存在该样本的正样本的子集,其在一般模型的最大似然可以无限趋近于该样本域特定模型上的似然,所以把一般模型应用到特定样本域X时,可以把X中的检测出来,检测出来的可以作为种子样本,通过一定的技术(针对不同的实际应用)从种子样本出发收集更多该特定域的潜在正样本用于对一般模型进行增量式更新。更新后的模型再次用于检测同一特定样本域X以收集更多的新颖样本用于对当前模型的增量式更新,如此递归,直至收敛。
文档评论(0)