机器学习的四十三条经验法则全文.pdf

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习的四十三条经验法则全文

机器学习的四十三条经验法则 ——来自谷歌的ML 工程最佳实践 本文主要围绕的是谷歌公司(Google)在机器学习方面的经验,旨在为那些具 备一定机器学习基础的读者提供最佳的经验法则。本文向读者展现机器学习经验 法则的方式,与谷歌 C++ 风格指南以及其它流行的编程实践指南相类似。如果 你曾上过机器学习的相关课程,或者曾构建或研究过机器学习的模型,那么你就 已经具备了足够多的阅读本文的知识了。 术语 在接下来的关于有效机器学习的讨论中,下面一些术语将会反复出现: 示例(Instance):那些你要为其做出预测的事物称为示例。例如,示例可能是 一个网页,你要将其归为“关于猫的”网页或者“不是关于猫的”网页。 标记(Label):预测任务的答案或结果称为标记。无论是机器学习系统的答案或 结果,还是训练数据的答案或结果,都可以称为标记。例如,将网页标记为“关 于猫的”。 特征 (Feature):预测任务中示例的属性即为“特征”。例如,网页可以有“包 含词汇‘猫’”的特征。 特征栏 (Feature Column):特征栏是相关特征的集合,如用户所住地区存在的 所有可能国籍的集合。在同一个样例的同一个特征栏中可能有一个或多个特征。 1 特征栏相当于(雅虎或微软的)虚拟机系统的 “命名空间(namespace)”或“域 (field)”。 样例(Example):样例包含示例(具有各种特征)和标记。 模型(Model):模型是预测任务的数学表达形式。先是通过样例训练模型,而 后利用模型做出预测。 度量 (Metric):度量是指一系列的数字,这些数字直接或间接的都被优化过。 目标(Objective):目标是指算法经过优化,努力要达到的度量标准。 工作流 (Pipeline):工作流指的是围绕机器学习算法而存在的基础架构。从前 端搜集数据、将搜集到的数据放入训练数据文件夹、训练一个或多个模型以及将 模型用于生产等过程,都属于工作流。 综述 要想创造出优秀的产品: 你需要以一位优秀工程师的身份去运用深度学习!记住!你不单单是一位机器学 习的研究者! 事实上,你所面临的大多数问题都是技术性问题。即便拥有足以媲美机器学习专 家的理论知识,要想有所突破,大多数情况下都在依赖示例的良好特征,而非优 秀的机器学习算法。因此,基本方法如下: 1. 确保你的工作流各连接端十分可靠 2. 树立合理的目标 3. 添加的常识性特征尽量简单 2 4. 确保你的工作流始终可靠 这种方法能带来相当多的盈利,或者也能在较长的时间里令许多人都满意,甚至 还可能实现双赢。只有在简单技巧不能发挥任何作用的情况下,才能使用复杂一 些的方法。方法越复杂,产品最终的产出速度越慢。 当你用尽了所有的简单技巧,等待你的很可能就是最前沿的机器学习技术。请看 第三阶段机器学习项目中的章节。 本文共分为四部分: 1. 关于第一部分,它会帮助读者理解,当下构建机器学习系统是否适合。 2. 关于第二部分,它将向读者介绍,第一次该如何部署自己的工作流。 3. 关于第三部分,它将向读者介绍,机器学习系统是一个不断迭代更新的过程, 工作流中会持续不断地添入新特征;同时,第三部分还会涉及如何评价模型、 如何评价训练过程中的偏误。 4. 在最后一部分,文章为大家提供了一些停滞不前时的做法。 5. 再后面,是与机器学习相关的工作以及附录,附录里提到了本文中常用例子 的背景情况。 在机器学习之前 法则1:不用害怕发布一款没有用到机器学习的产品。 机器学习是很酷,但它需要数据。从理论上讲,你可以从不同的问题中获取相关 的数据,而后通过调整模型得到新的产品。但是这样做,效果不如基本的启发式 3 方法。机器学习能完成的任务,启发式方法能够完成一半。 举个例子,当为应用商店的某款应用排名时,利用安装率或安装数量来判断即可; 当查找垃圾邮件时,找出之前曾经发过垃圾邮件的发行者即可,当然也可以使用 人工编辑的方法;为联系人排名时,把最近联系人排在最前面(或按字母顺序) 即可。如果可以不使用机器学习,那就不用,或者等你有了足够的数据再用。 法则2 :将度量标准

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档