朴素算一算你否要买延误险海量资源.pdfVIP

朴素算一算你否要买延误险海量资源.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

本文由简悦SimpRead转码,原文地址

本节课讲解第三个分类算法——朴素贝叶斯,我依然以一个例子开头,带领你进入朴素贝叶斯算法的世

界,通过算法原理、算法优缺点的讲解,带你算一算是否要买延误险。最后我们再动手来写一下代

码,看看如何使用朴素贝叶斯来进行分类。

一个例子

最近看到一则,从2015年开始,凭借自己对航班和天气的分析,成功地了大约900次

飞机延误险并获得延误赔偿,累计获得理赔金高达300多万元。那么她是怎么决定要买延误险的

呢?

其实,航班延误最主要的就是天气变化,包括起飞地及降落地的天气;除此之外,也有机场和

公司的。假设这些之间并没有互相影响,每一项对于飞机最终是否延误的影响都是独立的,王

集齐过去的数据,就可以计算出每一个条件与飞机延误的概率。比如,在总体上延误的概率为

20%,不延误的概率为80%。在飞机延误的情况下,“起飞地天气=晴天”的概率为20%,“降落地天气

=雨天”的概率为40%,“机场=首都机场”的概率为35%,“公司=南方”的概率为5%;在不

延误的情况下,这些属性的概率分别为60%、55%、45%、55%。

那么这个时候,有一架南方公司的航班,从飞往,天气是晴天,天气是雨天,那

么,我们就可以根据上面的概率算出来不延误的综合概率=80%×60%×55%×45%×55%

0.0065412,延误的综合概率=20%×20%×40%×35%×5%=0.00028,从这个结果来看,不延误

的可能性要高于延误的可能性,所以这次不需要买延误险。

算法原理

上面的这个例子就是我今天要介绍的算法——朴素贝叶斯分类器的思路,贝叶斯这个名字你应该很熟

悉,这简直就是概率论的鼻祖,所以我们这个算法的原理也跟概率论脱不开干系。考虑我们分类所用到

的特征和分类结果,朴素贝叶斯有一个假设前提,那就是所有的条件对结果都是独立发生作用的。就像

我们上面预测是否要买延误险一样,起飞地的天气不会对降落地的天气有影响,同时起飞地和降落地的

天气以及所造成的延误问题不会比他们单独发生时有任何区别。所以根据这个思想,出现了朴素贝叶斯

概率:

这个看不懂没关系,我把它转换成我们的属性和分类,再来看一下:

在某些属性已知的情况下,获得某个分类的概率就等于在已知分类的情况下,某个属性的概率乘以分类

的概率再除以属性的概率。具体到我们的例子上,如下所示:

我们需要获得的是左侧的结果,而右侧就是基于已有的样本数据可以计算出来。而根据上面提到的朴素

贝叶斯的假设,最重要的就是下面这个转换:

于是,根据已经有的数据,我们可以计算出每一个特征对最果的概率情况,比100条数据,

结果延误的有20条,结果不延误的有80条。在延误的20条中,起飞地=晴天的有4条,那么在已知

延误的情况下起飞地是晴天的概率为20%;在不延误的80条数据中,起飞地=晴天的有48条。那么

在已知不延误的情况下,起飞地是晴天的概率为60%。依据这个方法,我们就可以计算出所有我们需要

的概率值,像上面的例子中那样。

如何处理连续值

预测延误险的例子中使用的都是离散值,那么对于连续值该怎么处理呢?假设我们新增一个特征

——机票的价格。这时,机票价格是续值,我们可以假设机票这个特征服从正态分布,通过样本

集计算出机票价格对应每一个分类的均值和方差,再根据比如密度函数,计算出新数据与均值的距离,

从而获得一个概率值。关于这一块的处理细节,如果你有可以再查找一些详细的讲解。

关于平滑

对于离散值,有一个需要注意的地方:如果某一个属性值比如“公司=”,由于数据比较

少,在“分类=延误”的类别下没有出现过,那么按照上面的方法,不管其他的特征如何,P(“公司

=”|延误)=0,所有用到这个的结果都会是0。那么,这里就有一个数据准备环节的方法,称

为“平滑”(Smoothing)。这时我们可以想到一个简单的平滑方案,

文档评论(0)

cra12138 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档