- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【AutoML】AutoML 能否被过度炒作?
AI开发者
2020-11-10 原文
原标题 |?AutoML is Overhyped
作 者 |?Denis Vorotyntsev
翻 译 |?呀啦呼(Tufts University | CS)
图源:汤姆和杰瑞,第70集?——?按键猫(1952)(译者注:直到暑假去了上海Disney,我才晓得它和兔八哥、啄木鸟伍迪都和迪士尼木有关系,气气?)
我在多个机器学习竞赛中为了融合次要的模型使用了AutoML,并且我参与了两个AutoML的竞赛。我认为AutoML作为使建模过程自动化的一种想法格外精彩,但是该领域被过度炒作(overhyped)。一些关键概念,例如特征工程(features engineering)或用于参数优化的元学习(meta-learning),将释放其潜力,但就目前而言,将封装的AutoML作为工具只是铺张金钱。
以下全部文本均与表格数据有关。
?1??AutoML是嘛玩意?
??Data Science projects(数据科学项目)
任何数据科学项目都包含几个基本步骤:从业务角度提出问题(选择成功的任务和度量标准),收集数据(收集,清理,探究),建立模型和评估其功能,在生产环境中部署模型并观看模型在生产中的表现。
跨行业的数据挖掘标准流程
过程的每个部分对于项目的成功都至关重要。但是,从机器学习的最擅长角度来看,建模部分至关重要,由于完善的ML模型可能会为公司带来很多价值。
在建模阶段,数据科学家正在处理优化任务:使用给定的数据集,目标-最大化所选目标。这个过程很简单,它需要不同类型的技能:
1. 特征工程有时被视为艺术,而非科学(译者:我猜作者表达的是很多时候我们需要直觉或者阅历总结,但是我不同意归为艺术);
2. 参数优化需要对算法和核心ML概念有深化的了解;
3. 需要软件工程技能(码畜们存在的意义)来让输出的代码易于理解、部署。
这就是为啥我们需要AutoML。
ML建模和软件工程一样,像是艺术和科学的结合体。
??AutoML
AutoML的输入是数据和任务(classification, regression, recommendations等),输出-生产就绪模型,该模型能够猜测隐蔽的数据。数据驱动管道中的每个打算都是一个参数(译者:闹不懂作者的意思,有点玄学)。AutoML的基本想法是找到这样的参数,这些参数可以在合理的时间内给出良好的分数。
AutoML选择了一种预处理数据的策略:如何处理不平衡的数据;如何处理不平衡的数据;如何填充缺失值;outlier的删除,替换或保留;如何编码类别和多类别列;如何避开目标泄漏;如何防止内存错误;等等。
AutoML生成很多新的特征并且选择当中有意义的;
AutoML自动选择适合的模型(Linear models, K-Nearest Neighbors, Gradient Boosting, Neural Nets, 等等);
AutoML为选择的模型进行参数优化(比如tree-based的模型有多少子树数量和子采样数, 神经网络的learning rate和epochs数量;
AutoML建立了一个模型集成(译者:大杂烩,嘛都有)来尽可能的让模型分数更高。
?2??AutoML 的动机
??AutoML将填补数据科学市场中供需之间的缺口
如今,越来越多的公司要么开头收集数据,要么想变现已收集数据的潜力:他们期望从中获得价值(译者:作者该当表达的是商业价值)。可是没有太多具有适当背景的数据科学家可以满足需求,因此巨大的缺口消灭了。AutoML有可能会填补上。
但是这样的封装处理方案能给公司带来任何价值吗?我认为答案是“否”。
这些公司需要一个过程,但是AutoML只是一个工具。先进的工具无法弥补战略上的不足。在开头使用AutoML之前,请考虑先找询问公司来个项目(译者:瓜娃子作者是询问公司的托吧),这可能首先挂念您制定数据科学策略。大多数AutoML处理方案供应商也供应询问服务并不是巧合。?
看起来不像是一个完善方案,对吧(来自《南方公园》S2 E17)
??AutoML将会大幅节省数据科学团队的时间
依据2018 Kaggle ML and Data Science Survey, 一个数据可选的项目15-26%的时间花费在建模或者模型选择(Link:/headsortails/what-we-do-in-the-kernels-a-kaggle-survey-story)。
无论是考虑“员工工时”还是消耗的计算时间,这都是一项困难的任务。假如目标或数据发生更改(例如添加新特征),之前的过程就会被反复。AutoML可以挂念公司内的数据科学家节省时间,并将其更多地花费在更重要的事情
您可能关注的文档
- 3543-G349现场组焊设备焊接工作记录.doc
- 3543-G401管道焊接接头无损检测日委托单.doc
- 10资源管理工作手册.doc
- 09物资管理工作手册.doc
- 3543-G704产品主要受压元件使用材料一览表(含焊接材料).doc
- 3543-G708焊接接头表面质量检查记录.doc
- 08成本管理工作手册.doc
- 3543-G709产品焊接试板力学和弯曲性能检验报告.doc
- 110107 品保部受控清单00.doc
- 110107 人事行政记录00.doc
- 2024年中国钽材市场调查研究报告.docx
- 2024年中国不锈钢清洗车市场调查研究报告.docx
- 2024年中国分类垃圾箱市场调查研究报告.docx
- 2024年中国水气电磁阀市场调查研究报告.docx
- 2024年中国绿藻片市场调查研究报告.docx
- 2010-2023历年初中毕业升学考试(青海西宁卷)数学(带解析).docx
- 2010-2023历年福建厦门高一下学期质量检测地理卷.docx
- 2010-2023历年初中数学单元提优测试卷公式法(带解析).docx
- 2010-2023历年初中毕业升学考试(山东德州卷)化学(带解析).docx
- 2010-2023历年初中毕业升学考试(四川省泸州卷)化学(带解析).docx
文档评论(0)