- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第二章机器学习基本理论机器学习方法离不开数据和模型,俗话说,“巧妇难为无米之炊”,数据便是“米”,模型则是“巧妇”。没有充足的数据、合适的特征,再强大的模型结构也无法得到满意的输出。机器学习业界有一句经典“Garbagein,garbageout”。对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型和算法的选择及优化则逐步接近这个上限。1
2.1机器学习术语基本概念过拟合和欠拟合模型评估2
2.1.1基本概念数据集(dataset)是一种由数据所组成的集合,通常以表格的形式出现,其中每一行是一个数据,表示对一个事件或对象的描述,又称为样本(sample)或实例(instance)。每一列反映事件或对象在某方面的表现或性质,称为特征(feature)或属性(attribute)。属性上的取值称为属性值(attributevalue)或特征值。所有属性构成的空间称为属性空间(attributespace)、样本空间(samplespace)或输入空间(inputspace)。属性空间中的每一个点通常用一个向量来表示,称为特征向量(featurevector),即每个特征向量附属于一个实例。3
2.1.1基本概念模型(model)指描述特征和问题之间关系的数学对象。从数据中使用算法得到模型的过程称为学习(learning)或训练(training)。训练过程中使用的数据集又被分为以下3种:训练集(trainningset):通常取数据集中一部分数据作为训练集来训练模型。测试集(testingset):用来对已经学习好的模型或者算法进行测试和评估的数据集。验证集(validationset):有时需要把训练集进一步拆分成训练集和验证集,验证集用于在学习过程中对模型进行调整和选择。4
2.1.1基本概念每个实例中描述模型输出的可能值称为标签(label)或标记。特征是事物固有属性,标签是根据固有属性产生的认知。在经过一定次数的训练迭代后,模型损失不再发生变化或变化很小,说明当前训练样本已经无法改进模型,称为模型达到收敛(convergence)状态。新的数据输入到训练好的模型中,以对其进行判断称为预测(prediction)。通过学习得到的模型适用于新样本的能力,称为泛化(generalization)能力。检验模型效果的方法称为模型评估(evaluation)。5
2.1.2过拟合和欠拟合当学习器把训练样本学得“太好”的时候,很可能将训练样本自身的一些特点当作所有潜在样本的共有特性,这样会导致泛化性能下降,这在机器学习中称为“过拟合”。与之相反地,“欠拟合”是指对训练样本的一般性质尚未学习好。6
2.1.2过拟合和欠拟合处理过拟合的方法大致分为以下几种:从数据入手,获得更多的训练数据。降低模型复杂度。正则化方法。集成学习方法。处理欠拟合的方法大致分为以下几种:添加新特征。增加模型复杂度。减小正则化系数。7
2.1.3模型评估现实中如何进行模型的评估与选择呢?通过实验测试来对学习器的泛化误差进行评估并进而做出选择。具体地讲,先使用某种实验评估方法测得学习器的某个性能度量结果,然后对这些结果进行比较。这个评估的过程涉及到实验评估方法的选择、性能度量指标以及比较检验等几个步骤。8
2.2实验估计方法?9
2.2.1留出法“留出法”是最简单也是最直接的验证方法,它将原始的样本集合随机划分成训练集和验证集两部分。比方说,对于一个点击率预测模型,我们把样本按照70%~30%的比例分成两部分,70%的样本用于模型训练;30%的样本用于模型验证Scikit-learn提供的train_test_split函数能够将数据集切分成训练集和测试集两类,其函数原型如下:sklearn.model_selection.train_test_split(X,y,**options)10
2.2.2交叉验证法“交叉验证法”首先将全部样本划分成k个大小相等的样本子集;依次遍历这k个子集,每次把当前子集作为验证集,其余所有子集作为训练集,进行模型的训练和评估;最后把k次评估指标的平均值作为最终的评估指标。?11
2.2.3自助法自助法是基于自助采样法的检验方法。对于总数为n的样本集合,进行n次有放回的随机抽样,得到大小为n的训练集。n次采样过程中,有的样本会被重复采样,有的样本没有被抽出过,将这些没有被抽出的样本作为验证集,进行模型验证,这就是自助法的验证过程。??12
2.3性能度量性能度量(performancemeasure)是指衡量模型泛化能力的评价标准,同时反映了任务需求。在对比不同模型能力时,使用不同
文档评论(0)