- 1、本文档共34页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习的四十三条经验法则全文
机器学习的四十三条经验法则
——来自谷歌的ML 工程最佳实践
本文主要围绕的是谷歌公司(Google)在机器学习方面的经验,旨在为那些具
备一定机器学习基础的读者提供最佳的经验法则。本文向读者展现机器学习经验
法则的方式,与谷歌 C++ 风格指南以及其它流行的编程实践指南相类似。如果
你曾上过机器学习的相关课程,或者曾构建或研究过机器学习的模型,那么你就
已经具备了足够多的阅读本文的知识了。
术语
在接下来的关于有效机器学习的讨论中,下面一些术语将会反复出现:
示例(Instance):那些你要为其做出预测的事物称为示例。例如,示例可能是
一个网页,你要将其归为“关于猫的”网页或者“不是关于猫的”网页。
标记(Label):预测任务的答案或结果称为标记。无论是机器学习系统的答案或
结果,还是训练数据的答案或结果,都可以称为标记。例如,将网页标记为“关
于猫的”。
特征 (Feature):预测任务中示例的属性即为“特征”。例如,网页可以有“包
含词汇‘猫’”的特征。
特征栏 (Feature Column):特征栏是相关特征的集合,如用户所住地区存在的
所有可能国籍的集合。在同一个样例的同一个特征栏中可能有一个或多个特征。
1
特征栏相当于(雅虎或微软的)虚拟机系统的 “命名空间(namespace)”或“域
(field)”。
样例(Example):样例包含示例(具有各种特征)和标记。
模型(Model):模型是预测任务的数学表达形式。先是通过样例训练模型,而
后利用模型做出预测。
度量 (Metric):度量是指一系列的数字,这些数字直接或间接的都被优化过。
目标(Objective):目标是指算法经过优化,努力要达到的度量标准。
工作流 (Pipeline):工作流指的是围绕机器学习算法而存在的基础架构。从前
端搜集数据、将搜集到的数据放入训练数据文件夹、训练一个或多个模型以及将
模型用于生产等过程,都属于工作流。
综述
要想创造出优秀的产品:
你需要以一位优秀工程师的身份去运用深度学习!记住!你不单单是一位机器学
习的研究者!
事实上,你所面临的大多数问题都是技术性问题。即便拥有足以媲美机器学习专
家的理论知识,要想有所突破,大多数情况下都在依赖示例的良好特征,而非优
秀的机器学习算法。因此,基本方法如下:
1. 确保你的工作流各连接端十分可靠
2. 树立合理的目标
3. 添加的常识性特征尽量简单
2
4. 确保你的工作流始终可靠
这种方法能带来相当多的盈利,或者也能在较长的时间里令许多人都满意,甚至
还可能实现双赢。只有在简单技巧不能发挥任何作用的情况下,才能使用复杂一
些的方法。方法越复杂,产品最终的产出速度越慢。
当你用尽了所有的简单技巧,等待你的很可能就是最前沿的机器学习技术。请看
第三阶段机器学习项目中的章节。
本文共分为四部分:
1. 关于第一部分,它会帮助读者理解,当下构建机器学习系统是否适合。
2. 关于第二部分,它将向读者介绍,第一次该如何部署自己的工作流。
3. 关于第三部分,它将向读者介绍,机器学习系统是一个不断迭代更新的过程,
工作流中会持续不断地添入新特征;同时,第三部分还会涉及如何评价模型、
如何评价训练过程中的偏误。
4. 在最后一部分,文章为大家提供了一些停滞不前时的做法。
5. 再后面,是与机器学习相关的工作以及附录,附录里提到了本文中常用例子
的背景情况。
在机器学习之前
法则1:不用害怕发布一款没有用到机器学习的产品。
机器学习是很酷,但它需要数据。从理论上讲,你可以从不同的问题中获取相关
的数据,而后通过调整模型得到新的产品。但是这样做,效果不如基本的启发式
3
方法。机器学习能完成的任务,启发式方法能够完成一半。
举个例子,当为应用商店的某款应用排名时,利用安装率或安装数量来判断即可;
当查找垃圾邮件时,找出之前曾经发过垃圾邮件的发行者即可,当然也可以使用
人工编辑的方法;为联系人排名时,把最近联系人排在最前面(或按字母顺序)
即可。如果可以不使用机器学习,那就不用,或者等你有了足够的数据再用。
法则2 :将度量标准
文档评论(0)