网站大量收购闲置独家精品文档,联系QQ:2885784924

《Python数据分析》课件 项目六 机器学习.pptxVIP

《Python数据分析》课件 项目六 机器学习.pptx

  1. 1、本文档共174页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Python数据分析

项目六“1+X”数据应用开发与服务(Python)专项集训;知识引入;知识框架;目录;本任务主要复习Python基础语法中的变量与数据类型、数据运算、数据存储、选择语句、面向过程编程等内容。;变量的优势:变量,即变化的量;如果将变量比做一个容器,那么它内部的内容会随着放入物品的变化而变化,放入变量中的物品即计算机要处理的数据,因此,变量能够存放不同类型的数据,变量所指的变化的量为其中数据的变化,数据变量中的优势是:可以让变量代替数值进行间接运算,如果在运算的过程发现起始的数据有错误,就可以在利用变量来修改该数据,避免了原始数据直接参与运算如果自身数据存在错误,需要对该值参与运算的全过程中逐一修改出错数据的问题,而利用变量直接修改数据只需要修改一次即可。;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;目录;在机器学习中,学习任务分为有监督和无监督学习。有监督学习也被称为“有老师的学习”,常见的有监督学习有:分类任务、回归任务;无监督学习也称为“没有老师的学习”,常见的无监督学习有聚类任务。有监督学习在学习的过程要有明确的标签,而无监督则没有。;分类任务是有监督学习中的一种,在分类任务中监督学习的标签为数据自身的种类,数据的类别数多于一种,这些种类是离散可数的,通常用整数表示。例如,在猫狗分类任务中,如果是一张图片是猫用数字0标记,如果是狗就用数字1标记。在训练过程中,猫的训练数据是猫的图片,猫的训练标签是数字0;狗的训练数据是狗的图片,狗的训练标签是数字1;在整个训练过程中训练数据和训练标签是已知的,使用训练集训练分类器,分类器会将图像数据与类别标签建立映射关系;当输入猫的图片时,训练好的分类器就能预测其为种类0;输入狗的图片时,训练好的分类器就能预测其为种类1,从而实现分类。

分类模型的目标是使训练数据集中每个数据的种类尽可能多得预测为真实的种类,为了描述分类模型接近目标程度,常用交叉熵损失函数作为分类模型的目标。;判别式模型能反映训练数据本身的特性,它寻找不同类别间尽可能犯错最少的位置作为决策边界,反映不同类数据之间的差异,其预测的准确度更高。

判断式模型具有以下特点:(1)对条件概率建模,学习不同类别之间的最优边界;

(2)捕捉不同类别特征的差异信息;(3)学习成本较低,需要的计算资源较少

(4)训练时样本数量较少时也能获得较好的学习效果(5)对对未知数据进行预测时拥有较好性能。

判断式模型包括:逻辑回归模型、支持向量机SVC模型、线性判别分析模型等;;逻辑回归模型是分类判断式模型中的一种,虽然模型名称中有“回归”字样,但逻辑回归模型是一种分类模型。同时,逻辑回归模型也是神经网络的基础。逻辑回归模型的表达式为:f(x)=g(w1x1+w2x2…+wpxp+b);其中,x1,x2,…,xp为输入的特征列,p为特征列的列数(特征的个数),w1,w2,…,wp,b为模型中待求解的参数;当只有单个特征时,线性回归模型判别式g(x)函数为sigmod函数,其表达是为:g(x)=1/(1+ew1x1+b),函数的图像如下:;生成式模型会对x和y的联合分布p(x,y)建模,通过贝叶斯公式来求得p(yi|x),选取使得p(yi|x)最大的yi作为数据的标签,可以从统计的角度表示分布的情况,能够反映同类数据本身的相似度,而不是划分不同类的决策边界。

生成式模型的收敛速度更快,当样本容量增加时,学习到的模型可以更快地收敛到真实模型。生成式模型具有以下特点:(1)对联合概率建模可以学习到所有分类数据的分布能够更好的反应数据本身特性(2)学习成本较高,需要更多的计算资源,需要的样本数更多,样本较少时学习效果较差(3)当存在隐变量时,依旧可以用生成式模型,而判别式模型就不能使用了;(4)推断时性能较差,一定条件下能转换成判别式。

生成式模型包括:朴素贝叶斯模型、隐藏马尔科夫模型、高斯混合模型等。判别式模型和生成式模型都是使后验概率最大化,不同点在于:判别式是直接对后验概率建模;而生成式模型通过贝叶斯定理使问题转化为求联合概率。

;;回归任务是有监督学习中的一种,在回归任务中监督学习的标签为一个数据值,并且这个数是连续的数值通常用浮点数表示。例如,房价预测中影响房价的因素有地理位置、房屋面积,此时,学习的标签为某个位置、某个面积对应的房屋单价;在训练的过程中,每一条数据中某个位置、某个面积及其对应的房屋单价都是已知的数据,将这些待训练的数据输入回归模型中进行训练,建立位置、面积与对应单价之间的映射关系;当某个未知的位置和面积输入到训练

文档评论(0)

释然 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档