网站大量收购独家精品文档,联系QQ:2885784924

NB_HMM文档文档文档.pdf

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

NLP中的概率图模型

很多机器学习的算法也常用于NLP的任务。例如,用朴素贝叶斯进行文本分类、用SVM

进行语义角色标注,虽然它们在某些NLP任务中都实现了很好的效果,但它们都相互独立,

没有形成体系。

随着近些年对智能推理和认知神经学的深入研究,人们对大脑和语言的内在机制了解得

越来越多,也越来越能从更高层次上观察和认识思维(包括语言)的现象,由此形成一套完

整的算法体系。目前最流行的算法思想包含如下两大流派:基于概率论和图论的概率图模型;

基于人工神经网络的深度学习理论。

贝叶斯与朴素贝叶斯算法

贝叶斯公式最早是由英国神学家贝叶斯提出来的,用来描述两个条件概率之间的关系。

在之前的条件概率定义中,我们知道

P(A,B)P(A,B)

P(A|B)P(B|A)

P(B)P(A)

由上式进一步推导得到:

P(B|A)P(A)

P(A|B)

P(B)

由此,推广到随机变量的范畴,设X,Y为两个随机变量,得到贝叶斯公式:

P(Y|X)P(X)

P(X|Y)

P(Y)

P(X|Y)P(Y)

P(Y|X)

P(X)

其中,P(Y)叫作先验概率,P(Y|X)叫作后验概率,P(Y,X)是联合概率

在机器学习的视角下,我们把X理解成“具有某种特征”,把Y理解成“类别标签”:

P(某种特征|所属类别)P(所属类别)

P(所属类别|某种特征)

P(某种特征)

贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类

的条件下具有某特征”的概率,属于有监督学习。

下面以一个例子来解释朴素贝叶斯,给定数据如下:

现在给我们的问题是,如果一对男女朋友,男生想女生求婚,男生的四个特点分别是不

帅,性格不好,身高矮,不上进,请你判断一下女生是嫁还是不嫁?

这是一个典型的分类问题,转为数学问题就是比较p(嫁|(不帅、性格不好、身高矮、不

上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))的概率,谁的概率大,我就能给出嫁

或者不嫁的答案!这里我们联系到朴素贝叶斯公式:

我们需要求p(嫁|(不帅、性格不好、身高矮、不上进),这是我们不知道的,但是通过朴

素贝叶斯公式可以转化为好求的三个量,这三个变量都能通过统计的方法求得。

等等,为什么这个成立呢?学过概率论的同学可能有感觉了,这个等式成立的条件需要

特征之间相互独立吧!对的!这也就是为什么朴素贝叶斯分类有朴素一词的来源,朴素贝叶

斯算法是假设各个特征之间相互独立,那么这个等式就成立了!

但是为什么需要假设特征之间相互独立呢?

1.我们这么想,假如没有这个假设,那么我们对右边这些概率的估计其实是不可做的,这

么说,我们这个例子有4个特征,其中帅包括{帅,不帅},性格包括{不好,好,爆好},

身高包括{高,矮,中},上进包括{不上进,上进},那么四个特征的联合概率分布总共

是4维空间,总个数为2*3*3*2=36个。

36个,计算机扫描统计还可以,但是现实生活中,往往有非常多的特征,每一个特征

的取值也是非常之多,那么通过统计来估计后面概率的值,变得几乎不可做,这也是为什么

需要假设特征之间独立的原因。

2.假如我们没有假设特征之间相互独立,那么我们统计的时候,就需要在整个特征空间中

去找,比如统计p(不帅、性格不好、身高矮、不上进|嫁),我们就需要在嫁的条件下,

去找四种特征全满足分别是不帅,性格不好,身高矮,不上进的人的个数,这样的话,

由于数据的稀疏性,很容易统计到0的情况。这样是不合适的。

根据上面俩个原因,朴素贝叶斯法对条件概率分布做了条件独立性的假设,由于这是一

个较强的假设,朴素贝叶斯也由此得名!这一假设使得朴素贝叶斯法变得简单,但有时会牺

牲一定的分类准确率。

文档评论(0)

会计从业资格证持证人

具备金融(银行,证券,保险,互金),物流,IT(甲方和乙方),贸易,电商,制造业(包括半导体和电子制造),咨询公司等行业工作经验。 多年IT行业项目经理,产品经理,咨询顾问,需求分析,质量保证等岗位工作经验。 调研报告,手册撰写,产品介绍,技术报告,总结报告,作文写作,公文写作,心得体会,品牌故事。 管理体系搭建,财务体系搭建,战略规划定制,建设方案定制,企业转型方案,行业分析报告,数据分析报告,培训计划方案,规章制度撰写,运营方案定制,商业计划书,可行性分析,话术定制。

领域认证该用户于2024年12月25日上传了会计从业资格证

1亿VIP精品文档

相关文档