机器学习的关键点是什么-数据量比算法还重要.docxVIP

下载本文档

0
0
约6.72千字
约 13页
2024-09-22 发布于湖北
举报
版权申诉

机器学习的关键点是什么-数据量比算法还重要.docx

1、本文档共13页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习的关键点是什么数据量比算法还重要

???

机器学习算法可以通过概括示例来确定如何执行重要任务。手动编程很难完成这样的目标，所以机器学习通常是可行且成本有效的。随着更多数据的出现，可以解决更加雄心勃勃的问题。因此，机器学习被广泛应用于计算机真诚等领域。然而，开发成功的机器学习应用程序需要大量的“黑色艺术”，这在教科书中很难找到。

1.学习=表示+评价+优化

所有的机器学习的算法通常包括三个组成部分：

表示：一个分类器必须用计算机能够处理的一些正式语言来表示。相反，为学习者选择一种表示方式就等同于选择一组可以学习的分类器。这个集合被称为学习者的假设空间。如果一个分类器不在假设空间中，它就不能被学习。一个相关的问题是：如何表示输入，比如使用哪种特征。

评价：要区分好的分类器和坏的分类器，需要一个评价函数。算法内部使用的评估函数与分类器外部使用的评价函数可能不同，其主要是为了便于优化，以及下一节中我们要讨论的问题。

优化：最后，我们需要在语言的分类器中找到得分最高的一种方法。优化技术的选择是提高学习者效率的关键，同时也有助于确定分类器的评价函数是否具有多个最优值。初学者开始的时候使用现成的优化器是很常见的，不过这些优化器会被专门设计的优化器取代。

2.“泛化能力”很关键，“测试数据”验证至关重要!

机器学习的主要目标是对训练集之外的样本进行泛化。因为无论有多少数据，都不太可能在测试中再次看到完全相同的例子。在训练集上具有良好表现很容易。机器学习初学者最常犯的错误是把模型放在训练数据中进行测试，从而产生成功的错觉。如果被选择的分类器在新的数据上进行测试，一般情况，结果往往和随机猜测相差无几。所以，如果你雇佣他人建立分类器，一定要留一些数据给你自己，以便在他们给你的分类器中进行测试。相反，如果有人雇佣你建立一个分类器，请保留一部分数据对你的分类器进行最终测试。

3.仅有数据是不够的，知识相结合效果更好!

把泛化能力作为目标，会又另一个后果：只有数据是不够的，无论你拥有多少数据。这是否让人沮丧。那么，我们怎么能奢求它学到东西呢?不过，现实世界中我们想学习的函数并不都是从数学上可能的函数中提取出来的!实际上，使用一般假设——例如平滑性、相似样本有相似分类、有限的依赖性或有限复杂度——往往能做得足够好，这也正是机器学习能如此成功的大部分原因。正如演绎一样，归纳(训练模型所做的)是一个知识杠杆——它将少量知识输入转化为大量知识输出。归纳是一个比演绎更为强大的杠杆，仅需更少的知识就能产出有用的结果。不过，它仍然需要大于零的知识输入才能工作。正如任何一个杠杆一样，输入得越多，得到的也越多。

这样回想起来，训练过程中对知识的需求没什么好惊讶的。机器学习并非魔术，它无法做到无中生有，它所做的是举一反三。如同所有的工程一样，编程需要做大量的工作：我们必须从头开始构建所有的东西。训练的过程更像是耕种，其中大部分工作是自然完成的。农民将种子与营养物质结合起来，种植作物。训练模型将知识与数据结合起来，编写程序。

4.“过拟合”让机器学习效果产生错觉!

如果我们所拥有的知识和数据不足以完全确定正确的分类器，分类器(或其中的一部分)就可能产生「错觉」。所获得的分类器并不是基于现实，只是对数据的随机性进行编码。这个问题被称为过拟合，是机器学习中棘手的难题。如果你的训练模型所输出的分类器在训练数据上准确率是100%，但在测试数据上准确率只有50%，那么实际上，该分类器在两个集合上的输出准确率总体可能约为75%，它发生了过拟合现象。

在机器学习领域，人人都知道过拟合。但是过拟合有多种形式，人们往往不能立刻意识到。理解过拟合的一种方法是将泛化的误差进行分解，分为偏差和方差。偏差是模型不断学习相同错误的倾向。而方差指的是不管真实信号如何，模型学习随机信号的倾向。线性模型有很高的偏差，因为当两个类之间的边界不是一个超平面时，模型无法做出调整。决策树不存在这个问题，因为它们可以表征任何布尔函数。但是另一方面，决策树可能方差很大：如果在不同训练集上训练，生成的决策树通常差异很大，但事实上它们应该是相同的。

交叉验证可以帮助对抗过拟合，例如，通过使用交叉验证来选择决策树的最佳规模用于训练。但这不是万能的，因为如果我们用交叉验证生成太多的参数选择，它本身就会开始产生过拟合现象。

除交叉验证之外，还有很多方法可以解决过拟合问题。最流行的是在评估函数中增加一个正则化项。举个例子，这样一来就能惩罚含更多项的分类器，从而有利于生成参数结构更简单的分类器，并减少过拟合的空间。另一种方法是在添加新的结构之前，进行类似卡方检验的统计显著性检验，在添加新结构前后确定类的分布是否真的具有差

您可能关注的文档

文档评论（0）

180****4026 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

机器学习的关键点是什么-数据量比算法还重要.docxVIP