基于大数据的统计分析模型设计.pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于大数据的统计分析模型设计--第1页

基于大数据的统计分析模型设计

统计是利用尽可能少的局部样本数据来发现总体规律,处

理对象往往数据规模小且数据结构单一。在大数据环境下,面

临海量数据的采集与统计,传统方法已无法满足大规模数据集

处理。基于Hadoop系统,利用其分布式存储和并行处理机

制,设计了大数据环境下的统计分析模型,从海量数据中提取

出有用的信息特征,实现数据资源共享,为相关部门决策提供

信息服务。

0引言

随着统计数据规模的快速增长,数据特征日趋复杂,数据

收集渠道多样,统计学相关领域研究已进入大数据时代。如何

高效收集样本数据、挖掘信息,从海量数据中提取有用的信息

特征,将信息及时提供给相关部门决策,成为当前统计学研究

热点之一。与国外相比,我国在统计分析工作中存在信息资源

整合程度不高、数据共享匮乏、信息不完整等问题。随着大数

据时代的到来,对大数据分析与挖掘的研究和应用越来越重

视,大数据的挖掘与分析将帮助统计部门在有效合理的时间内

采集、处理、管理与分析海量数据。

目前政府部门间借助政务平台可以实现数据资源共享,但

是企业与政府间缺乏数据的分享平台,造成了信息隔离,对

此,统计部门要构建起全方位的海量数据共享和分布式存储的

安全统计分析平台,实现跨地区的统计信息交流,满足海量信

息数据的实时分享和处理。

1大数据

大数据是一种大规模的数据集合,数据分析人员无法在一

定时间内用一般软件对其进行提取、处理、分析和管理。处理

基于大数据的统计分析模型设计--第1页

基于大数据的统计分析模型设计--第2页

大数据的关键技术包括大规模数据集的并行处理技术、分布式

数据库、分布式文件存储与处理系统、数据挖掘、云计算等。

大数据具有5V特点:Volume(体量浩大)、Variety(类型多

样)、Velocity(生成快速)、Veracity(真实性高)、Value(价

值巨大)。

1.1云计算

云计算(CloudComputing)是传统信息技术发展融合的产

物,基于效用计算(UtilityComputing)、并行计算(Parallel

Computing)、分布式计算(DistributedComputing),它提供

便捷的、可用的、按需付费的网络访问。云计算平台可以提供

IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服

务),同时负责数据安全、分布式网络存储、虚拟化、负载均

衡、热备份冗余等,用户在使用资源时不需考虑底层基础架

构。

大数据应用不在于掌握庞大的数据信息,而在于对获取的

数据进行专业化处理,以挖掘出数据的价值。大数据处理任务

无法用单机串行计算方式处理,必须采用分布式架构进行计

算。其特点在于依托云计算的分布式处理、云存储、分布式数

据库和虚拟化技术对海量数据进行挖掘。

1.2大数据处理技术

1.2.1大数据研究现状

Science、Nature等国际顶级学术期刊出专刊探讨了大数

据处理与分析研究,介绍海量数据给社会生产和人们生活带来

的挑战和机遇,学者们断言:“数据将是未来举足轻重的资

源。在应用方面,目前已有很多企业开始做大数据处理的相关

研究,IBM、谷歌、雅虎、亚马逊等公司纷纷提出自己的大数

文档评论(0)

150****3559 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档