网站大量收购闲置独家精品文档,联系QQ:2885784924

朴素贝叶斯算法:您需要了解的一切.docx

朴素贝叶斯算法:您需要了解的一切.docx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

朴素贝叶斯算法:您需要了解的一切

朴素贝叶斯是一种基于贝叶斯定理的概率机器学习算法,用于各种分类任务。在本文中,我们将了解朴素贝叶斯算法和所有基本概念,以便在理解时不存在任何疑问。

?

朴素贝叶斯算法简介

?

最简单的解决方案通常也是最强大的解决方案,朴素贝叶斯就是一个很好的例子。尽管机器学习在过去几年中取得了进步,但事实证明它不仅简单,而且快速、准确和可靠。

它已成功用于多种用途,但它在自然语言处理(NLP)问题上尤其有效。

朴素贝叶斯是一种基于?贝叶斯定理的概率机器学习算法,用于各种分类任务。在本文中,我们将了解朴素贝叶斯算法和所有基本概念,以便在理解时不存在任何疑问。

?

贝叶斯定理

?

贝叶斯定理是一个用于计算条件概率的简单数学公式。

条件概率?是在给定另一个事件(通过假设、推定、断言或证据)发生的情况下发生的概率的度量。

公式为:—

它告诉我们:在B发生的情况下A发生的频率?,写为?P(A|B)?也称为后验概率,当我们知道:在A发生的情况下B发生的频率?,写为?P(B|A)?以及A发生的可能性有多大单独的,写作?P(A)?以及B单独的可能性,写作?P(B)。

?

简单来说,贝叶斯定理是当我们知道某些其他概率时找到概率的一种方法。

?

朴素贝叶斯所做的假设

?

基本的朴素贝叶斯假设是每个特征都会:

独立的

平等的

对结果的贡献。

让我们举一个例子来获得更好的直觉。考虑具有颜色、类型、来源和目标属性的汽车盗窃问题,“被盗”可以是“是”或“否”。

?

朴素贝叶斯示例

?

数据集如下所示。

?

?

对于我们的数据集,算法所做的假设的概念可以理解为:

我们假设没有一对特征是相互依赖的。例如,颜色“红色”与汽车的类型或原产地无关。因此,假设这些特征是?独立的。

其次,每个特征都被赋予相同的影响(或重要性)。例如,仅知道唯一的颜色和类型并不能完美地预测结果。因此,没有一个属性是不相关的,并且被认为??对结果有相同的贡献。

注意:?朴素贝叶斯所做的假设在现实情况中通常是不正确的。独立性假设永远不会正确,但在实践中通常效果很好。?因此得名“Na?ve”。

在我们的数据集中,?我们需要根据汽车的特征对汽车是否被盗进行分类。列代表这些功能,行代表各个条目。如果我们取数据集的第一行,我们可以观察到如果颜色为红色、类型为运动且来源为国内,则汽车被盗。所以我们想要对一辆红色国产SUV是否被盗进行分类。请注意,我们的数据集中没有红色国产SUV的示例。

根据这个例子,贝叶斯定理可以重写为:

?

?

变量?y?是类变量(被盗?),它表示汽车是否被盗或不满足条件。变量?X?代表参数/特征。

X?给出为,

?

?

这里?x1,x2…,xn?表示特征,即它们可以映射到颜色、类型和原点。通过替换?X?并使用链式法则展开,我们得到,

?

?

现在,您可以通过查看数据集来获取每个值并将它们代入方程中。对于数据集中的所有条目,分母不会改变,它保持静态。因此,可以去掉分母并注入比例。

?

?

在我们的例子中,类变量(y)只有两个结果:是或否。在某些情况下,分类可能是多变量的。因此,我们必须找到?概率最大的类变量(?y)。

?

?

使用上面的函数,我们可以获得给定预测变量/特征的类。

后验概率?P(y|X)可以通过首先?为目标的每个属性创建一个频率表?来计算?。然后,将频率表塑造为?似然表?,最后使用朴素贝叶斯方程计算每个类别的后验概率。后验概率最高的类别是预测的结果。下面是所有三个预测变量的频率和似然表。

?

“颜色”的频率和似然表

?

“类型”的频率和似然表

?

“起源”的频率和似然表

因此,在我们的示例中,我们有3个预测变量?X。

?

?

根据上面讨论的方程,我们可以将后验概率P(Yes|X)计算为:

?

?

由于0.1440.048,这意味着考虑到REDSUV和Domestic的特征,我们的示例被分类为“NO”,汽车没有被盗。

?

零频率问题

?

朴素贝叶斯的缺点之一是,如果类标签和某个属性值没有一起出现,那么基于频率的概率估计将为零。当所有概率相乘时,结果将为零。

在贝叶斯环境中克服这种“零频率问题”的方法是,当属性值未与每个类值一起出现时,为每个属性值-类组合的计数加一。

?

?

朴素贝叶斯分类器的类型

?

1.多项式朴素贝叶斯分类器

?

特征向量表示多项分布?生成某些事件的频率?。这是通常用于文档分类的事件模型。

?

2.伯努利朴素贝叶斯分类器:

?

在多元伯努利事件模型中,特征是描述输入的独立布尔值(二元变量)。与多项式模型一样,该模型在文档分类任务中很受欢迎,其中使用二元术语出现(即单词在文档中是否出现)特征而不是术语频率(即单词在文档中出现的频率)。

?

文档评论(0)

晶方科技 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档