李舰-数据科学概论-李扬-ch6.pptxVIP

  1. 1、本文档共98页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘和机器学习 引言大数据时代的支柱学科, 数据科学的基础:统计学(Statistics)计算机科学(Computer Science)人们通常把统计学和计算机科学的交集称为机器学习(Machine Learning),也被称为统计学习(Statistical Learning)。伴随数据科学时代的发展,统计学思想与机器学习方法深度融合。一方面,统计原则同样是机器学习的基石;另一方面,机器学习中的多种算法与流程是传统统计学方法在大数据情形下的自然进化。 引言从历史角度看,统计学曾专注于小样本的分析和推断,计算机科学则专注于规则和逻辑的运算。这两个学科在信息爆炸时代通过深度融合产生了新的“化学反应”,衍生出数据科学的概念。数据科学是一门应用学科,其核心理念在于从数据中获取价值,无论使用统计方法还是机器学习方法,都可以在这个框架中统一起来。 目录从海量数据到大数据无监督学习有监督学习 555从海量数据到大数据 海量数据自20世纪90年代开始,企业(尤其在银行、电信、零售等行业)信息系统随着信息化完善而积累了大量数据,产生“海量数据”的概念,对传统分析工具带来巨大挑战。银行、电信、零售行业 大数据随着互联网和移动互联网的兴起,需要处理的数据量进一步爆炸性地增长,传统的单机服务器和数据仓库已经开始不堪重负,云计算平台应运而生,“大数据”的概念异军突起。大数据与云平台 大数据2012年《NewYork Times》专栏写道“大数据时代已经降临”,掀起了大数据的热潮。我国也称2013年为“大数据元年”,这一年里各种官方媒体和民间的声音都开始热议大数据的未来。大数据类书籍 大数据时代的机器学习在大数据时代里,机器学习成了热门的方法论,使得一个学术领域的概念在业界得以大规模应用。机器学习 数据挖掘和机器学习相同之处:数据挖掘和机器学习中的很多方法非常类似,甚至可以看做是同一种方法论在不同时代的两个名词。差异之处:机器学习偏重于方法,数据挖掘偏重于流程。通常在业界的应用中不去区分这两个概念,可以简单地认为“使用机器学习方法、遵循数据挖掘流程”来进行数据分析。 海量数据与数据挖掘? 海量数据与数据挖掘要想完美地利用数据并挖掘出有用的知识从而应用到业务中去,通常需要遵循以下六个步骤:问题理解: 清晰地定义问题数据理解: 理解数据业务意义,探索数据数据准备: 对数据进行整理和转换数据建模: 分析建模过程模型评估: 从技术、业务的角度进行评估模型部署: 部署到实际的应用环境中 (1) 问题理解数据挖掘项目首要任务就是明确问题和理解问题,并将其映射成具体的数据挖掘任务。站在业务的角度来考虑问题,分析问题涉及到的因素,厘清那些因素和数据相关,以及期待的挖掘结果是什么。除了弄清楚问题,还需要评估现有的条件,根据资源和约束,判断挖掘项目的可行性。很多时候,分析者希望把最前沿的技术或者既往的有效经验应用在新的项目中,但是如果数据不符合要求或者业务流程不支持,终究是缘木求鱼。 (2) 数据理解数据理解是在问题理解的基础上理解数据业务意义,也是下一阶段中数据准备的铺垫。涉及对数据变量的理解,关键在于数据中的变量如何对应到真实世界中的事物的特征。对于数据变量,除了要匹配真实世界的具体含义以外,还要易于获取和采集。对于能采集的数据,还要了解到数据的采集方式、采集频率、数据结构、是否有缺失值、是否有异常值等诸多问题。由于很多数据都存在于数据库等信息系统,还要了解数据的存储方式和获取的技术难度。 (3) 数据准备数据准备步骤是在数据理解的基础上对数据进行整理和转换。原始数据通常分散于各处,并且和数据分析所需的最终形式存在差异,可以通过自动化的程序脚本来清理 和转换特定的数据集。在数据准备阶段除了对数据进行清洗、转换以外,通常还需要进行特征选择。变量也常被称为特征,有时候数据中的相关特征太多,会造成维度过高的问题。如果基于经验或者模型提前进行特征选择,会对分析带来很大的便利。特征选择的过程也是分析的过程,一些常用的数据可视化的方法也能用来帮助特征选择。 (4) 数据建模数据建模是利用模型对数据进行分析的过程。通常需要研究者先选择模型和评价方式(比如损失函数),基于算法实现分析并进行检验。如果模型与数据的匹配程度不好,还需要研究者不断地调节参数或选择新的模型。如此循环往复,直到选择出一个适合当前数据的模型为止。对数据科学家来说,数据建模的过程可能是分析的核心,很多工作出彩的地方也在于此,但模型并不是空中楼阁,需要前期的扎实工作才能得到更好的结果。 (5) 模型评估数据建模的过程中会从技术角度和业务的角度进行评价与评估。建模之后,通常需要从多个角度对模型进行评估:模型的普适性,即模型是否依赖于某些特定的条件和假设,以及业务数据中是否满足这种条件。模型的有用性,即模型和业务活动

文档评论(0)

1243595614 + 关注
实名认证
文档贡献者

文档有任何问题,请私信留言,会第一时间解决。

版权声明书
用户编号:7043023136000000

1亿VIP精品文档

相关文档