网站大量收购独家精品文档,联系QQ:2885784924

Python人工智能应用与实践课件:监督学习.pptx

Python人工智能应用与实践课件:监督学习.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共98页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

监督学习

6.1监督学习的概念

监督学习是指从给定的一组带标签的数据中学习输入(特征变量)和输出(目标变量)的映射关系,当新的

数据到来时,可以根据这个映射关系预测新数据的结果。按目标变量的类型,监督学习又可以分为分类和回

归:

分类:当预测目标是离散型时,即预测类别,学习任务为分类任务。例如,预测一位企业的员工是否会离职?

常用的算法是分类算法,例如决策树分类、朴素贝叶斯分类、逻辑回归等。

回归:当预测目标是连续型时,即预测值大小,学习任务为回归任务。例如,预测一辆新造的汽车价格。常

用的算法就是回归算法,例如线性回归、岭回归等。

有些机器学习的算法,例如神经网络、决策树、随机森林、K-近邻等,既适用于连续型目标变量也适用于离

散型目标变量。

监督学习的流程如图6-1所示:

1.选择一个适合目标任务的数学模型,例如决策树、线性

回归等模型。

2.先把一部分已知的“问题和答案”,即带标签的训练数

据集,给机器去学习,监督两字体现这里。

3.机器从训练数据集中总结出了自己的“方法论”。

4.人类把“新的问题”,即新数据集,给机器,让机器使

用学习到的方法论去解答。

6.2模型评价

6.2.1评估方法

对于收集到的一份数据集

D,同时要在D上进行训练和测试,因此要把D分成训练集和测试集。常用的基于数

据随机选样划分的评估方法有留出法和交叉验证。

1.留出法(HoldOut)

在留出法中,给定的数据集随机地划分成两个独立互斥的集合:训练集和测试集。一般情况下,30%的数据

分配到测试集,其余的数据分配到训练集。使用训练集训练学习器,推导出模型,模型的性能使用测试集进

行评估,检验模型的测试误差,进而估计模型的泛化能力。

使用留出法进行模型评价时,更好的方法是将数据划分为三个部分:训练集、测试集和验证集,如图6-2所

示。训练集用来模型拟合,估计出模型参数;验证集用来调整模型参数,得到更优的模型;测试集用来衡量

模型性能优劣。

在数据样本不是很多的情况下,则需要分层抽样,这样可以保证训

练集和测试集中各类样本的比例与原数据集是一致的,这样的划分

结果也更具代表性。

关于百分比例的选择,理论上来说是要用D中的数据来建模的,因此

训练集占比越大,建模能使用的数据信息就越多,但是此时测试集

数据过少,测试结果不具有普遍性。因此需要根据实际情况来选择,

一般情况下会选择30%左右的数据作为测试集。图6-2留出法(HoldOut)

留出法划分数据集的效果还是跟测试集的选取密切相关,最终模型

表现的好坏与初始数据的划分结果有很大的关系,具有一定的偶然

性。为了减少这种偶然性,可以选择多次划分数据集将最后结果取

平均值的方式去处理。

2.交叉验证(CrossValidation)

交叉验证就是对原始样本数据进行切分,然后组合成为多组不同的训练集和测试集,用训练集训练模型,

用测试集评估模型。某次的训练集可能是下次的测试集,故而称为交叉验证。交叉验证的方法有K折交叉

验证和留一交叉验证,其中K折交叉验证应用较为广泛。

(1)K折交叉验证(K-foldCrossValidation)

将数据集随机划分为K个互不相交的子集或者“折”:S1,S2,S3,……,Sk,每个折的大小大

致相等。每次选取K-1份作为训练集,用剩下的1份作为测试集,进行训练和测试。训练和测试进行K

次,每个子样本测试一次,得到K次不同的测试效果,平均K次的结果作为最终的模型效果。

这个方法的优势在于同时重复运用随机产生的子样本进行训练和测试,测试结果减少偶然性,更准

确地评估模型。

关于K的选择,通常来说,如果训练集相对较小,则增大K值,这样在每次迭代过程中将会有更多数

据用于模型训练,同时算法时间延长;如果训练集相对较大,则减小K值,这样可以降低模型在不同

的数据块上进行重复拟合的计算成本,在平均性能的基础上获得模型的准确评估。一般地,建议使

用10折交叉验证,因为它具有相对低的偏置和方差。

(2)留一验证(LeaveOneOut)

留一验证是只使用原样本中的一个样本来当做测试集,而剩余的样本当做训练集。这个步骤一直

持续到每个样本都被当过一次测试集。它是K-fold交叉验证的一种特例,即K与样本数量相等的时

候。

6.2.2评估指标

对于监督学习训练得到的模型,到底如何评价一个模型预测的好坏呢?不同模型预测的结果如何

比较?一般可以使用评估指标来进行模型评价和比较。评估指标有

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档