网站大量收购闲置独家精品文档,联系QQ:2885784924

Python数据分析及应用 课件 第11章 Python机器学习.pptx

Python数据分析及应用 课件 第11章 Python机器学习.pptx

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1;目录;(1)知识目标:掌握机器学习的三种基本方法:分类、回归和聚类。

(2)技能目标:理解分类的特征选择和信息增益,掌握决策树的使用方法,掌握回归方法的使用,掌握聚类的使用方法。

(3)素质目标:具备一定的决策分析能力,训练自己预测回归的眼光,培养自己聚集团结的思维,能通过机器学习的算法原理,对自己的发展规划有所启迪。

;鸢尾花卉数据集的机器学习

花卉,是大自然赋予我们人类的礼物。“桃李不言,下自成蹊”,使用花卉,可以传递人们的丰富情感和美好祝福,使得相互的关系变得更加的紧密和友好。“灼灼百朵红,戋戋五束素”,漂亮的花卉,在美化环境和提升心情方面,发挥着重要的作用。“梨花李花白斗白,桃花杏花红映红”,摆放不同花束,就能营造出愉悦的氛围和美丽的景观,从而提升了生活的品质和心情,美丽的花卉,表达了人们对美好生活的向往。这会对生活的幸福和经济的发展,起到赋能增值的作用。因此,对花卉进行机器学习,得出一些有意义的结论,是件很值得期待的事。在这里,选取鸢尾花卉进行学习。

如何对鸢尾花卉数据集进行机器学习呢?

;20世纪美国著名的教育家哲学家约翰·杜威(JohnDewey,1859-1952)认为“所有知识都是分类(Allknowledgeisclassification)”。

分类在现实生活中无处不在。

没有不断的分类,社会的发展是不可能实现。

在Python中,最典型的分类活动就是对决策树的学习。

决策树是一种树形结构,其组成包括了结点(node)和有向边(directededge)。而结点有两种类型,分别是内部节点(internalmode)和叶节点(leafnode)。其中,每个内部节点表示一个属性特征,每个叶节点表示一个类别。由于在每个节点上,决策树都会选择一个最佳的特征进行划分,以最大程度地提高分类的纯度。

因此,特征选择,是进行决策树分析的第一步。

;特征选择,是从训练数据的特征中选择一个特征作为当前节点的分裂标准(特征选择的标准不同产生了不同的特征决策树算法)。

特征选择决定了使用哪些特征来做判断。

鸢尾花卉(iris)数据集是Python自带的一个数据集,可以通过sklearn库,对数据进行载入,看到iris的全部信息和4个特征属性。代码如下:

#数据的载入

fromsklearnimportdatasets

iris_dataset=datasets.load_iris()

print(iris_dataset)#输出数据集的全部信息

print(iris_dataset.feature_names)#输出数据集的特征属性

;1.信息熵

信息熵(informationentropy)由克劳德?香农(ClaudeShannon)在20世纪40年代提出的概念,它是信息论的一个基本概念,用于描述和度量信息的不确定性,它是度量数据集纯度最常用的一种指标,表示样本数据的混乱程度。

假定在当前的数据集D中,第i类样本所占的比例为pi(1,2,3,....,n),则该数据集的信息熵定义为:

(11-1)

这个公式表明,一个事件的不确定性与该事件发生的概率有关,事件发生的概率越小则带来的信息越大,反之亦然。因此,Ent(D)的值越小,纯度越高,数据越混乱。;

绘制信息熵的代码为:

#计算并绘制信息熵

importnumpyasnp

importmatplotlib.pyplotasplt

x=np.arange(0.01,1,0.01)#构造数据

y=-x*np.log2(x)#绘制函数曲线

plt.xlabel(p(x))

plt.ylabel(H(x))

plt.title(informationentropy)

plt.plot(x,y)

plt.grid()#添加网格线

plt.show()

;2.信息增益

信息增益是基于信息熵而定义的。通过信息熵,可以计算出不纯度,如果把分类前后的不纯度相减,就可以得到一种叫做“纯度提升值”的指标,即:信息增益。其公式定义如下:

;3.信息增益率

为了解决信息增益的使用过程中,对属性值种类较多的特征会有所偏好这个问题,使用“信息增益率”来选择最优划分属性。信息增益率的公式定义如下:

在上述公式中,Gain(D,A)就是ID3算法中的信息增益,而划分信息SplitInfo(D,A)表示按照特征A划分数据集D

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档