- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
朴素贝叶斯算法:您需要了解的一切
朴素贝叶斯是一种基于贝叶斯定理的概率机器学习算法,用于各种分类任务。在本文中,我们将了解朴素贝叶斯算法和所有基本概念,以便在理解时不存在任何疑问。
?
朴素贝叶斯算法简介
?
最简单的解决方案通常也是最强大的解决方案,朴素贝叶斯就是一个很好的例子。尽管机器学习在过去几年中取得了进步,但事实证明它不仅简单,而且快速、准确和可靠。
它已成功用于多种用途,但它在自然语言处理(NLP)问题上尤其有效。
朴素贝叶斯是一种基于?贝叶斯定理的概率机器学习算法,用于各种分类任务。在本文中,我们将了解朴素贝叶斯算法和所有基本概念,以便在理解时不存在任何疑问。
?
贝叶斯定理
?
贝叶斯定理是一个用于计算条件概率的简单数学公式。
条件概率?是在给定另一个事件(通过假设、推定、断言或证据)发生的情况下发生的概率的度量。
公式为:—
它告诉我们:在B发生的情况下A发生的频率?,写为?P(A|B)?也称为后验概率,当我们知道:在A发生的情况下B发生的频率?,写为?P(B|A)?以及A发生的可能性有多大单独的,写作?P(A)?以及B单独的可能性,写作?P(B)。
?
简单来说,贝叶斯定理是当我们知道某些其他概率时找到概率的一种方法。
?
朴素贝叶斯所做的假设
?
基本的朴素贝叶斯假设是每个特征都会:
独立的
平等的
对结果的贡献。
让我们举一个例子来获得更好的直觉。考虑具有颜色、类型、来源和目标属性的汽车盗窃问题,“被盗”可以是“是”或“否”。
?
朴素贝叶斯示例
?
数据集如下所示。
?
?
对于我们的数据集,算法所做的假设的概念可以理解为:
我们假设没有一对特征是相互依赖的。例如,颜色“红色”与汽车的类型或原产地无关。因此,假设这些特征是?独立的。
其次,每个特征都被赋予相同的影响(或重要性)。例如,仅知道唯一的颜色和类型并不能完美地预测结果。因此,没有一个属性是不相关的,并且被认为??对结果有相同的贡献。
注意:?朴素贝叶斯所做的假设在现实情况中通常是不正确的。独立性假设永远不会正确,但在实践中通常效果很好。?因此得名“Na?ve”。
在我们的数据集中,?我们需要根据汽车的特征对汽车是否被盗进行分类。列代表这些功能,行代表各个条目。如果我们取数据集的第一行,我们可以观察到如果颜色为红色、类型为运动且来源为国内,则汽车被盗。所以我们想要对一辆红色国产SUV是否被盗进行分类。请注意,我们的数据集中没有红色国产SUV的示例。
根据这个例子,贝叶斯定理可以重写为:
?
?
变量?y?是类变量(被盗?),它表示汽车是否被盗或不满足条件。变量?X?代表参数/特征。
X?给出为,
?
?
这里?x1,x2…,xn?表示特征,即它们可以映射到颜色、类型和原点。通过替换?X?并使用链式法则展开,我们得到,
?
?
现在,您可以通过查看数据集来获取每个值并将它们代入方程中。对于数据集中的所有条目,分母不会改变,它保持静态。因此,可以去掉分母并注入比例。
?
?
在我们的例子中,类变量(y)只有两个结果:是或否。在某些情况下,分类可能是多变量的。因此,我们必须找到?概率最大的类变量(?y)。
?
?
使用上面的函数,我们可以获得给定预测变量/特征的类。
后验概率?P(y|X)可以通过首先?为目标的每个属性创建一个频率表?来计算?。然后,将频率表塑造为?似然表?,最后使用朴素贝叶斯方程计算每个类别的后验概率。后验概率最高的类别是预测的结果。下面是所有三个预测变量的频率和似然表。
?
“颜色”的频率和似然表
?
“类型”的频率和似然表
?
“起源”的频率和似然表
因此,在我们的示例中,我们有3个预测变量?X。
?
?
根据上面讨论的方程,我们可以将后验概率P(Yes|X)计算为:
?
?
由于0.1440.048,这意味着考虑到REDSUV和Domestic的特征,我们的示例被分类为“NO”,汽车没有被盗。
?
零频率问题
?
朴素贝叶斯的缺点之一是,如果类标签和某个属性值没有一起出现,那么基于频率的概率估计将为零。当所有概率相乘时,结果将为零。
在贝叶斯环境中克服这种“零频率问题”的方法是,当属性值未与每个类值一起出现时,为每个属性值-类组合的计数加一。
?
?
朴素贝叶斯分类器的类型
?
1.多项式朴素贝叶斯分类器
?
特征向量表示多项分布?生成某些事件的频率?。这是通常用于文档分类的事件模型。
?
2.伯努利朴素贝叶斯分类器:
?
在多元伯努利事件模型中,特征是描述输入的独立布尔值(二元变量)。与多项式模型一样,该模型在文档分类任务中很受欢迎,其中使用二元术语出现(即单词在文档中是否出现)特征而不是术语频率(即单词在文档中出现的频率)。
?
您可能关注的文档
- Copulas:超越线性相关性的依赖性建模.docx
- 从直方图到核密度估计.docx
- 极值理论:理解和预测罕见事件.docx
- 结构方程建模:揭示数据中的复杂关系.docx
- 进行功效分析以确定样本量.docx
- 空间统计的迷人世界:分析地理数据.docx
- 懒惰数据科学家掌握统计指南.docx
- 蒙蒂·霍尔问题的解释:概率、决策论以及直觉失败的原因.docx
- 倾斜数据解释:为什么右倾斜或左倾斜很重要.docx
- 如何进行析因实验.docx
- 2025年电脑喷射引擎示教板项目可行性研究报告.docx
- 2010-2023历年浙江省杭州市长河高中高三二模考试英语卷.docx
- 2025至2030年中国标准手提重型击实仪数据监测研究报告.docx
- 2025年中国外墙砖模具市场调查研究报告.docx
- 2010-2023历年甘肃省兰州第一中学高三月考生物试卷(带解析).docx
- 2025至2030年中国1,3-二甲氧基苯数据监测研究报告.docx
- 2025至2030年中国计算机控制墨色遥控装置数据监测研究报告.docx
- 2025至2030年中国车库门塑料件数据监测研究报告.docx
- 2025至2030年中国钛阴极锟筒数据监测研究报告.docx
- 2025年中国短波超短波接收机射频前端市场调查研究报告.docx
最近下载
- 盖洛普Q12解读课件.pptx
- 第三章方剂剂型与用法.ppt VIP
- 《带状疱疹》课件课件.pptx VIP
- 中国古代四大美男课件.ppt
- 空心电抗器漏磁引起围栏构架发热问题的处理 heating treatment of fence frame of air core reactor by magnetic flux leakage.pdf VIP
- ANSI-C119-0-2015-通用的测试方法和设备.pdf
- 英语-2025年1月广西高三调研考全科试卷和答案(12地级市).docx
- 吸引定律的mi密~讓你心想事成的阿拉丁神灯1.2版的.pdf VIP
- 易投操作手册.pdf VIP
- 读书分享《断舍离》.ppt VIP
文档评论(0)