- 1、本文档共698页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
机器学习概述;;机器学习(MachineLearning)是一个研究计算机怎样模拟或实现人类的学习行为,它以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的方向。;目前关于机器学习的主流定义有以下3种。
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究。
机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。;对于机器学习的概念更为具体的解释为,计算机程序通过学习,将无序的数据转换为有用的信息,进而达成程序能够自行解决实际问题的目的。
该学习过程通常不需要人类对计算机程序下达指示,由程序独立完成学习过程。
以一个能自动识别鸟类的计算机程序为例,程序通过学习输入的已知种类的鸟类的体重、翼长、是否有脚蹼、喙的颜色和后背颜色等数据,将这些信息转换为模式进行记忆,最终只需要输入未知类型的鸟类的对应的数据,便可自动识别该鸟类的类型。整个学习过程需要人类进行干涉的部分仅有学习时提供的鸟类样本数据,其余部分都由程序自行完成。;伴随着人工智能技术的发展与普及,作为人工智能核心的机器学习也得到了广泛的应用。机器学习的应用已经涵盖金融、交通、电力、教育、通信、电子商务、制造、医疗和农业等多个领域。机器学习已在不知不觉中影响人们的生产与生活。
常见的十个机器学习实际应用如表所示。;机器学习的应用领域;机器学习的应用领域;;一个完整的机器学习模型训练的过程可拆分为诸多个步骤,包括前期的目标分析、数据准备、特征工程,中期的模型训练与调优以及后期的性能度量与模型选择,机器学习的通用流程如下图所示。;在软件工程中,需求分析是指在创建系统或产品前,确定新系统的目的、范围、定义和功能的步骤。机器学习中的需求分析是指确定机器学习的使用场景,需要解决的业务和技术问题。
机器学习中的需求分析与软件工程的中的需求分析不同点在于,软件工程的需求分析注重实现某一个功能,而机器学习的需求更注重于解决某一个具???问题。
机器学习中的需求分析需要分析想要解决问题需要达成的具体目标,例如,要识别邮件是否是垃圾邮件,需要解决如何区分垃圾邮件与正常邮件的具体问题,需要达成的具体目标就是从一堆未知的邮件中,准确地寻找出其中的垃圾邮件,剩下的便是正常的邮件。
同时还需要分析邮件系统可提供的信息,如每封邮件可以提供的信息包含:发件人、发件邮箱地址、邮件标题等等,需要制定一个依据此类信息来解决垃圾邮件识别的初步构想,从而确定需要收集与分析的数据。
;类型分析是选定机器学习使用的算法种类的重要步骤,为之后的算法选取与模型训练起到铺垫作用。机器学习的类型按训练方式可分为有监督学习、无监督学习和半监督学习。
有监督学习
有监督学习的算法能够从带有标记的训练资料中学习或建立一种知识,依据此知识对新的实例进行推测。垃圾邮件识别是一个典型的有监督学习问题,人们会对以往已经确认是垃圾邮件的邮件打上标记,而机器学习算法将会依赖这些标记进行学习。
有监督学习可细分为分类与回归,分类的目标是预测一批未知类型的对象的类别,典型的分类问题有垃圾邮件识别、恶意软件检测等,这类问题需要识别具体的对象的具体类别。
回归则是预测某一事物未来的发展变化状况,典型的回归问题有股票价格预测、未来几天的气温变化预测等,这类问题需要预测对象的未来某一具体数值属性的变化。;无监督学习
无监督学习与有监督学习相反,训练资料中没有预设的标记,需要算法自行从训练资料中建立一种知识。
客户分群是一个典型的无监督学习问题,需要分群的客户不具备具体的类别等参考信息,仅可通过相似的特征进行分群,如年龄、性别、消费行为等,按具体的属性的相似度进行分群,并且结果具有不确定性和非唯一性。;半监督学习
半监督学习介于非监督学习和监督学习之间,半监督学习使用部分标记的训练资料进行训练,这些训练资料由少量带有标记的数据和大量不带标记的数据构成。
标记数据的成本使得标记全部数据不太现实,而获取未标记的数据相对便宜。
在这种情况下,半监督学习可能具有很大的实用价值。
许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显著提高学习准确性。;数据收集是数据准备最初始的步骤,收集的数据的种类将直接影响模型训练的结果,其中需要特别注意样本数据的偏差状况,实际生产生活中的数据往往并不是均匀分布的,如果无视样本数据分布的偏差而直接使用随机抽样采集数据,那么模型的训练结果将会明显地偏向数量较多的种类。
而数据量将影响模型的精确度与训练时间,若数据量越丰富、覆盖越广,则模型的精确度将越高,但同时训练时间也可能会增加。
根据数据来源的不同,数据收集也需要采取不同的方式,与业务系统对接的数据可直接从数据库采集,而网络数据则往往需要爬虫进行爬
您可能关注的文档
- 数控车床编程与加工.pptx
- C_C++程序设计教程.pptx
- JavaScript前端开发案例教程(第2版).pptx
- 牙科开业致辞(7篇).doc
- 内部使用索尼电子(无锡)有限公司招聘762人公开引进急需紧缺人才笔试参考题库答案大全(预热题).docx
- 内部使用稻花香集团招聘172人公开引进高层次人才笔试参考题库答案完整题库含答案(A卷).docx
- 内部使用稻花香集团总部社会招聘补招7人模拟试题(共100题)附带答案大全(考试直接用).docx
- 内部使用秦皇岛宏兴钢铁有限公司春季招聘24人高频100题难、易错点模拟试题附带答案题库大全附解析答案.docx
- 内部使用秦川机床集团有限公司招聘3人高频100题难、易错点模拟试题附带答案完整版含答案(培优A卷).docx
- 内部使用秦川机床集团有限公司招聘3人高频100题难、易错点模拟试题附带答案完整版含答案(培优A卷).docx
- 内部使用石家庄焦化集团有限责任公司招聘193人高频考题难、易错点模拟试题附带答案及参考答案(基础题).docx
- 内部使用登封电厂集团有限公司招聘应届高校毕业生88人高频难、易错点模拟试题附带答案王牌题库附答案(培.docx
- 内部使用皆利士多层线路板(中山)有限公司总部社会招聘补招7人模拟试题(共100题)附带答案王牌题库(.docx
- 内部使用福建捷联电子有限公司招聘1人公开引进高层次人才笔试参考题库答案大全审定版.docx
- 内部使用番禺创信鞋业有限公司招聘1人公开引进高层次人才笔试参考题库答案完整题库带答案(突破训练).docx
- 内部使用申达集团有限公司应届高校毕业生招聘高频考题难模拟试题附带答案通关秘籍题库附答案(基础题).docx
- 内部使用申达集团有限公司招考聘用6人(高频重点提升专题训练)附带答案及参考答案(典型题).docx
- 内部使用珠海粤裕丰钢铁有限公司校园招聘公开引进高层次人才笔试答案大全及答案【新】.docx
- 内部使用珠海格力电器股份有限公司招聘193人高频考题难、易错点模拟试题附带答案内部题库(达标题).docx
- 内部使用珠海松下马达有限公司招聘1人公开引进高层次人才笔试参考题库答案真题(培优).docx
文档评论(0)