机器学习算法与实践课件第2章机器学习基本理论.pptx

下载文档

0
0
约3.61千字
约 29页
2024-11-02 发布于山东
举报
版权申诉
保障服务

机器学习算法与实践课件第2章机器学习基本理论.pptx

1、本文档共29页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第二章机器学习基本理论机器学习方法离不开数据和模型，俗话说，“巧妇难为无米之炊”，数据便是“米”，模型则是“巧妇”。没有充足的数据、合适的特征，再强大的模型结构也无法得到满意的输出。机器学习业界有一句经典“Garbagein，garbageout”。对于一个机器学习问题，数据和特征往往决定了结果的上限，而模型和算法的选择及优化则逐步接近这个上限。1

2.1机器学习术语基本概念过拟合和欠拟合模型评估2

2.1.1基本概念数据集（dataset）是一种由数据所组成的集合，通常以表格的形式出现，其中每一行是一个数据，表示对一个事件或对象的描述，又称为样本（sample）或实例（instance）。每一列反映事件或对象在某方面的表现或性质，称为特征（feature）或属性（attribute）。属性上的取值称为属性值（attributevalue）或特征值。所有属性构成的空间称为属性空间（attributespace）、样本空间（samplespace）或输入空间（inputspace）。属性空间中的每一个点通常用一个向量来表示，称为特征向量（featurevector），即每个特征向量附属于一个实例。3

2.1.1基本概念模型（model）指描述特征和问题之间关系的数学对象。从数据中使用算法得到模型的过程称为学习（learning）或训练（training）。训练过程中使用的数据集又被分为以下3种：训练集（trainningset）：通常取数据集中一部分数据作为训练集来训练模型。测试集（testingset）：用来对已经学习好的模型或者算法进行测试和评估的数据集。验证集（validationset）：有时需要把训练集进一步拆分成训练集和验证集，验证集用于在学习过程中对模型进行调整和选择。4

2.1.1基本概念每个实例中描述模型输出的可能值称为标签（label）或标记。特征是事物固有属性，标签是根据固有属性产生的认知。在经过一定次数的训练迭代后，模型损失不再发生变化或变化很小，说明当前训练样本已经无法改进模型，称为模型达到收敛（convergence）状态。新的数据输入到训练好的模型中，以对其进行判断称为预测（prediction）。通过学习得到的模型适用于新样本的能力，称为泛化（generalization）能力。检验模型效果的方法称为模型评估（evaluation）。5

2.1.2过拟合和欠拟合当学习器把训练样本学得“太好”的时候，很可能将训练样本自身的一些特点当作所有潜在样本的共有特性，这样会导致泛化性能下降，这在机器学习中称为“过拟合”。与之相反地，“欠拟合”是指对训练样本的一般性质尚未学习好。6

2.1.2过拟合和欠拟合处理过拟合的方法大致分为以下几种：从数据入手，获得更多的训练数据。降低模型复杂度。正则化方法。集成学习方法。处理欠拟合的方法大致分为以下几种：添加新特征。增加模型复杂度。减小正则化系数。7

2.1.3模型评估现实中如何进行模型的评估与选择呢？通过实验测试来对学习器的泛化误差进行评估并进而做出选择。具体地讲，先使用某种实验评估方法测得学习器的某个性能度量结果，然后对这些结果进行比较。这个评估的过程涉及到实验评估方法的选择、性能度量指标以及比较检验等几个步骤。8

2.2实验估计方法?9

2.2.1留出法“留出法”是最简单也是最直接的验证方法，它将原始的样本集合随机划分成训练集和验证集两部分。比方说，对于一个点击率预测模型，我们把样本按照70%~30%的比例分成两部分，70%的样本用于模型训练；30%的样本用于模型验证Scikit-learn提供的train_test_split函数能够将数据集切分成训练集和测试集两类，其函数原型如下：sklearn.model_selection.train_test_split(X,y,**options)10

2.2.2交叉验证法“交叉验证法”首先将全部样本划分成k个大小相等的样本子集；依次遍历这k个子集，每次把当前子集作为验证集，其余所有子集作为训练集，进行模型的训练和评估；最后把k次评估指标的平均值作为最终的评估指标。?11

2.2.3自助法自助法是基于自助采样法的检验方法。对于总数为n的样本集合，进行n次有放回的随机抽样，得到大小为n的训练集。n次采样过程中，有的样本会被重复采样，有的样本没有被抽出过，将这些没有被抽出的样本作为验证集，进行模型验证，这就是自助法的验证过程。??12

2.3性能度量性能度量（performancemeasure）是指衡量模型泛化能力的评价标准，同时反映了任务需求。在对比不同模型能力时，使用不同

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

机器学习算法与实践课件第2章机器学习基本理论.pptx