- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于大数据的统计分析模型设计--第1页
基于大数据的统计分析模型设计
统计是利用尽可能少的局部样本数据来发现总体规律,处
理对象往往数据规模小且数据结构单一。在大数据环境下,面
临海量数据的采集与统计,传统方法已无法满足大规模数据集
处理。基于Hadoop系统,利用其分布式存储和并行处理机
制,设计了大数据环境下的统计分析模型,从海量数据中提取
出有用的信息特征,实现数据资源共享,为相关部门决策提供
信息服务。
0引言
随着统计数据规模的快速增长,数据特征日趋复杂,数据
收集渠道多样,统计学相关领域研究已进入大数据时代。如何
高效收集样本数据、挖掘信息,从海量数据中提取有用的信息
特征,将信息及时提供给相关部门决策,成为当前统计学研究
热点之一。与国外相比,我国在统计分析工作中存在信息资源
整合程度不高、数据共享匮乏、信息不完整等问题。随着大数
据时代的到来,对大数据分析与挖掘的研究和应用越来越重
视,大数据的挖掘与分析将帮助统计部门在有效合理的时间内
采集、处理、管理与分析海量数据。
目前政府部门间借助政务平台可以实现数据资源共享,但
是企业与政府间缺乏数据的分享平台,造成了信息隔离,对
此,统计部门要构建起全方位的海量数据共享和分布式存储的
安全统计分析平台,实现跨地区的统计信息交流,满足海量信
息数据的实时分享和处理。
1大数据
大数据是一种大规模的数据集合,数据分析人员无法在一
定时间内用一般软件对其进行提取、处理、分析和管理。处理
基于大数据的统计分析模型设计--第1页
基于大数据的统计分析模型设计--第2页
大数据的关键技术包括大规模数据集的并行处理技术、分布式
数据库、分布式文件存储与处理系统、数据挖掘、云计算等。
大数据具有5V特点:Volume(体量浩大)、Variety(类型多
样)、Velocity(生成快速)、Veracity(真实性高)、Value(价
值巨大)。
1.1云计算
云计算(CloudComputing)是传统信息技术发展融合的产
物,基于效用计算(UtilityComputing)、并行计算(Parallel
Computing)、分布式计算(DistributedComputing),它提供
便捷的、可用的、按需付费的网络访问。云计算平台可以提供
IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服
务),同时负责数据安全、分布式网络存储、虚拟化、负载均
衡、热备份冗余等,用户在使用资源时不需考虑底层基础架
构。
大数据应用不在于掌握庞大的数据信息,而在于对获取的
数据进行专业化处理,以挖掘出数据的价值。大数据处理任务
无法用单机串行计算方式处理,必须采用分布式架构进行计
算。其特点在于依托云计算的分布式处理、云存储、分布式数
据库和虚拟化技术对海量数据进行挖掘。
1.2大数据处理技术
1.2.1大数据研究现状
Science、Nature等国际顶级学术期刊出专刊探讨了大数
据处理与分析研究,介绍海量数据给社会生产和人们生活带来
的挑战和机遇,学者们断言:“数据将是未来举足轻重的资
源。在应用方面,目前已有很多企业开始做大数据处理的相关
研究,IBM、谷歌、雅虎、亚马逊等公司纷纷提出自己的大数
文档评论(0)