大数据导论第7章 大数据分析..pptx

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第7章大数据分析LOGO

目录大数据分析与数据分析的关系01 大数据分析的重要性及认识02 统计数据分析03 7.4基于机器学习的数据分析04 057.5经典的机器学习算法067.6基于图的数据分析077.7基于自然语言的数据分析

7.1 大数据分析与数据分析的关系大数据分析大数据分析是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。数据分析数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息并形成结论而对数据加以详细研究和概括总结的过程。

7.2 大数据分析的重要性及认识数据希腊有一个著名的谷堆悖论,如图所示。“如果1粒谷子落地不能形成谷堆,2粒谷子落地不能形成谷堆,3粒谷子落地也不能形成谷堆,依此类推,无论多少粒谷子落地都不能形成谷堆。但是,事实并非如此。”这个悖论说的就是量变会产生质变,但它需要一个明显的分割线。

数据分析的目的找到周期规律找到各个分类的特征找到异常、极值

数据分析的目的通过数据来发现规律、研究规律,贯穿了人类社会发展的始终。人类科学发展史上的不少进步都和数据分析直接相关,如现代医学流行病学的开端。伦敦1854年发生了大规模的霍乱,很长时间没有办法控制。一位医师用标点地图的方法研究了当地水井分布和霍乱患者分布之间的关系,发现有一口水井周围,霍乱患病率明显较高,借此找到了霍乱暴发的原因:一口被污染的水井。

数据分析价值数据本身就具有价值,数据分析使其价值展现得更加淋漓尽致。分析后的数据可在决策分析前,给业务部门提供正确的方向指示。例如通过分析经营数据,了解到企业运营资源应如何合理分配,优化企业运营管理流程;通过分析月度或季度生产损耗或不良品,找到降低物料的损耗系数,降低物料成本,创造更大的价值效益,间接促成业绩。

认识数据数据(Data)在拉丁文里是“已知”的意思,在英文中的一个解释是“一组事实的集合,从中可以分析出结论”。数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,如声音、图像称为模拟数据,也可以是离散的,如符号、文字称为数字数据。图形可以帮助我们将数据转换成信息,图显示的是从图中可以更加直观地观测每月的销售情况。笼统地说,凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为数据。步入现代社会,信息的种类和数量越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频、视频等都是数据。

数据的类型计数资料计量资料

数据的类型等级资料

数据的类型数据的表现形式还不能完全表达其内容,需要经过解释,数据和关于数据的解释是不可分的。如93是一个数据,可以是一个同学某门课的成绩,也可以是某个人的体重,还可以是计算机系2013级的学生人数。数据的解释是指对数据含义的说明,数据的含义称为数据的语义,数据与其语义是不可分的。并且单纯的数据是毫无作用的,需要人们进行整理分析才能起到作用。可以说数据分析和数据有着同等重要的作用。

7.3 统计数据分析样本=全体?现在社会上有一种流行的说法,认为在大数据时代,“样本=全体”,人们得到的不是抽样数据而是全数据,因而只需要简单地数一数就可以下结论了,复杂的统计学方法可以不再需要了。这种观点非常错误。首先,大数据仅告知信息,但不解释信息。如股票市场,即使把所有的数据都公布出来,不懂的人依然不知道数据代表的信息。所以在大数据时代,统计学依然是数据分析的灵魂。其次,全数据的概念本身很难经得起推敲。全数据就是全部数据。这在某些特定的场合对于某些特定的问题确实可能实现。如要比较清华、北大两校同学数学能力整体上哪个更强,可以收集到两校同学高考时的数学成绩作为研究的数据对象。从某种意义上说,这是全数据。但是,并不是说我们有了这个全数据就能很好地回答问题。一方面,这个数据虽然是全数据,但仍然具有不确定性。

统计数据的四种类型定类数据定类数据(NominalData),表现为类别,但不区分顺序,是由定类尺度计量形成的定序数据定序数据(OrdinalData),表现为类别,但有顺序,是由定序尺度计量形成的定距数据定距数据(IntervalData),表现为数值可进行加、减运算,是由定距尺度计量形成的定比数据定比数据(RatioData),表现为数值可进行加、减、乘、除运算,是由定比尺度计量形成的。

统计数据的四种类型在描述数据的集中趋势时,对定类数据通常是计算众数,对定序数据通常是计算中位数,但对定距和定比数据同样也可以计算众数和中位数。反之,适用于高层次测量数

您可能关注的文档

文档评论(0)

159****1944 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档