浅谈大数据分析方法及应用 .pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

浅谈大数据分析方法及应用

作者:吴哲

来源:《科学与技术》2019年第2期

吴哲

中国华录集团有限公司

摘要:当今社会已经进入了大数据时代,随着数据获取、存储等技术的不断发展,以及人

们对数据的重视程度不断提高,大数据得到了广泛的重视,不仅仅在IT领域,包括经济学领域、

医疗领域、营销领域等。本文主要从大数据分析的方法理论入手,对现今各行各业即将运用的

大数据处理方法进行研究,总结出一种较适用的大数据分析方法及其应用,以供行业和企业在

未来的业务活动中作参考。

关键词:预测分析;大数据处理;大数据应用;数据挖掘

1引言

时至今日,大数据并没有特别公认的定义。有三个不同角度的定义:(1)“大数据”指的

是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人

类所能解读的信息[1]。(2)“大数据”指不用随机分析法(抽样调查)这样的捷径,而采用

所有数据进行分析处理的方法的数据[2]。(3)“大数据”是需要新处理模式才能具有更强的

决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2大数据处理方法

我们认为大数据价值链可分为4个阶段:数据生成、数据采集、数据储存以及数据分析。

数据分析是大数据分析中最重要的一环同样也是价值链的最后,实现了大数据的价值,也是大

数据应用的基础,其目的在于提取有用的信息,在根据现有的理论上对未来进行合理预判,提

供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值。

传统数据分析是指用适当的统计方法对收集来的大量数据进行分析,把一大批杂乱无章的

数据中的信息提取出来,找出研究对象的内在规律,以求最大化地开发数据资料的信息,发挥

数据的作用。从小的方面说数据分析对于企业了解顾客需求、把握未来市场动态走势都有一定

的指导作用。从大的方面来说数据分析对于国家制定发展计划,预判政局形式均有一定的可信

度。

以下介绍大数据分析中所用的传统分析方法:

(1)聚类分析

聚类分析是划分对象的统计学方法,指把具有某种相似特征的物体或者事物归为一类。聚

类分析的目的在于辨别在某些性质上相似的事物,并按这些特性将样本划分成若干类,使同类

事物有着相似点很多,不同类的事物则有高度的异质性。这样在研究事物时更加容易从中挖掘

有用信息,便于研究。

(2)因子分析

因子分析的基本概念就是用少数几个因子去描述许多因素之间的联系,类似于数学中的替

换概念。将比较密切的几个变量归在一个因子中,因子是不可观测的,不是具体的变量,用较

少的几个因子反映原始数据的大部分信息。

(3)相关分析

相关分析法是测定事物之间相关关系的规律性并据以进行预测和控制的分析方法。社会经

济形象之间存在着大量的相互联系、相互依赖、相互制约的数量关系。这种关系可分为两种类

型。一类是函数关系,它反映着现象之间严格的依存关系,也称确定性的依存关系。在这种关

系中,对于变量的每一个数值,都有一个或几个确定的值与之对应。另一类为相关关系,在这

种关系中,变量之间存在着不确定、不严格的依存关系,对于变量的某个数值,可以有另一变

量的若干数值与之相对应,这若干个数值围绕着它们的平均数呈现出有规律的波动。

(4)回归分析

回归分析是研究一个变量与其他若干变量之间相关关系的一种数学工具,它是在一组实验

或观测数据的基础上,寻找被随机性掩盖了的变量之间的依存关系。通过回归分析,可以把变

量间的复杂的、不确定的关系变得简单化、有规律化。

(5)A/B测试

也称为水桶测试,通过对比测试群体,确定哪种方案能提高目标变量的技术。大数据可以

使大量的测试被执行和分析,保证这个群体有足够的规模来检测控制组和治疗组之间有意义的

区别.

(6)数据挖掘。更为深入的数据分析就需要利用到数据挖掘技术,实现一些高级别的数据

分析需求。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含

在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘主要用于完成

以下6种不同任务,同时也对应着不同的分析方法:分类、估值、预言、相关性分组或关联规

则、聚集、描述和可视化。

3大数据分析在行业活动中的应用

非结构数据处理和数据挖掘的应用范围较广,它可能应用于运营商、银行、传统企业和电

商,挑选几个具有代表性的案例与大家分享。

3.1电信行业

文档评论(0)

176****0816 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档