- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
判别模型、生成模型与朴素贝叶斯方法
JerryLead
csxulijie@
2011年3月5日星期六
1判别模型与生成模型
上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为p(y|x;θ),在参数θ确定的情况下,求解条件概率p(y|x)。通俗的解释为在给定特征后预测结果出现的概率。
比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。换一种思路,我们可以根据山羊的特征首先学习出一个山羊模型,然后根据绵羊的特征学习出一个绵羊模型。然后从这只羊中提取特征,放到山羊模型中看概率是多少,再放到绵羊模型中看概率是多少,哪个大就是哪个。形式化表示为求p(x|y)(也包括p(y)),y是模型结果,x是特征。
利用贝叶斯公式发现两个模型的统一性:
由于我们关注的是y的离散值结果中哪个概率大(比如山羊概率和绵羊概率哪个大),而并不是关心具体的概率,因此上式改写为:
其中p(x|y)称为后验概率,p(y)称为先验概率。
由p(x|y)?p(y)=p(x,y),因此有时称判别模型求的是条件概率,生成模型求的是联合概率。
常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件随机场、神经网络等。
常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、RestrictedBoltzmannMachine等。
这篇博客较为详细地介绍了两个模型:
/home.php?mod=spaceuid=248173do=blogid=227964
2高斯判别分析(Gaussiandiscriminantanalysis)
1)多值正态分布
多变量正态分布描述的是n维随机变量的分布情况,这里的μ变成了向量,σ也变成了矩阵Σ。写作N(μ,Σ)。假设有n个随机变量x1,x2,…,xn。μ的第i个分量是E(Xi),而Σii=Var(xi),Σij=Cov(xi,xj)。
概率密度函数如下:
其中|Σ|是Σ的行列式,Σ是协方差矩阵,而且是对称半正定的。当μ是二维的时候可以如下图表示:
其中μ决定中心位置,Σ决定投影椭圆的朝向和大小。如下图:
对应的Σ都不同。
2)模型分析与应用
如果输入特征x是连续型随机变量,那么可以使用高斯判别分析模型来确定p(x|y)。模型如下:
输出结果服从伯努利分布,在给定模型下特征符合多值高斯分布。通俗地讲,在山羊模型下,它的胡须长度,角大小,毛长度等连续型变量符合高斯分布,他们组成的特征向量符合多值高斯分布。
这样,可以给出概率密度函数:
最大似然估计如下:
注意这里的参数有两个μ,表示在不同的结果模型下,特征均值不同,但我们假设协方差相同。反映在图上就是不同模型中心位置不同,但形状相同。这样就可以用直线来进行分隔判别。
求导后,得到参数估计公式:
Φ是训练样本中结果y=1占有的比例。μ0是y=0的样本中特征均值。
μ1是y=1的样本中特征均值。Σ是样本特征方差均值。
如前面所述,在图上表示为:
直线两边的y值不同,但协方差矩阵相同,因此形状相同。μ不同,因此位置不同。
3)高斯判别分析(GDA)与logistic回归的关系将GDA用条件概率方式来表述的话,如下:
y是x的函数,其中
都是参数。
进一步推导出
这里的θ是的函数。
这个形式就是logistic回归的形式。
也就是说如果p(x|y)符合多元高斯分布,那么p(y|x)符合logistic回归模型。反之,不成立。为什么反过来不成立呢?因为GDA有着更强的假设条件和约束。
如果认定训练数据满足多元高斯分布,那么GDA能够在训练集上是最好的模型。然而,我们往往事先不知道训练数据满足什么样的分布,不能做很强的假设。Logistic回归的条件假设要弱于GDA,因此更多的时候采用logistic回归的方法。
例如,训练数据满足泊松分布,
ly=1~poisson(\1),那么p(y|x)也是logistic回归的。这个时候
如果采用GDA,那么效果会比较差,因为训练数据特征的分布不是多元高斯分布,而是泊松分布。
这也是logistic回归用的更多的原因。
3朴素贝叶斯模型
在GDA中,我们要求特征向量x是连续实数向量。如果x是离散值的话,可以考虑采用朴素贝叶斯的分类方法。
假如要分类垃圾邮件和正常邮件。分类邮件是文本分类的一种应用。
假设采用最简单的特征描述方法,
您可能关注的文档
- ()EM算法-大数据文档资料.docx
- ()线性回归、logistic回归和一般回归-大数据文档资料.docx
- ()支持向量机SVM(上)-大数据文档资料.docx
- ()支持向量机SVM(下)-大数据文档资料.docx
- 【资料分享】大数据白皮书-大数据文档资料.docx
- Apache_Flume安装与配置-大数据文档资料.docx
- Groovy中文教程-大数据文档资料.docx
- hadoop开发者第三期-大数据文档资料.docx
- [商洛]2023年陕西商洛市柞水县差额及自收自支事业单位招聘14人笔试历年参考题库附带答案详解.docx
- [东营]山东省黄河三角洲农业高新技术产业示范区事业单位招聘人选笔试历年参考题库附带答案详解.docx
- [中央]2023年中国电子学会招聘应届生笔试历年参考题库附带答案详解.docx
- [吉安]2023年江西吉安市青原区总工会招聘协理员笔试历年参考题库附带答案详解.docx
- [中央]中华预防医学会科普信息部工作人员招聘笔试历年参考题库附带答案详解.docx
- [保定]河北保定市第二医院招聘工作人员49人笔试历年参考题库附带答案详解.docx
- [南通]江苏南通市崇川区人民法院招聘专职人民调解员10人笔试历年参考题库附带答案详解.docx
- [厦门]2023年福建厦门市机关事务管理局非在编工作人员招聘笔试历年参考题库附带答案详解.docx
- [三明]2023年福建三明市尤溪县招聘小学幼儿园新任教师79人笔试历年参考题库附带答案详解.docx
- [哈尔滨]2023年黑龙江哈尔滨市木兰县调配事业单位工作人员笔试历年参考题库附带答案详解.docx
- [上海]2023年上海市气象局所属事业单位招聘笔试历年参考题库附带答案详解.docx
- [台州]2023年浙江台州椒江区招聘中小学教师40人笔试历年参考题库附带答案详解.docx
文档评论(0)