基于海量数据数据分析方案设计.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于海量数据数据分析方案设计

基于海量数据的数据分析方案设计 data analysis program design based on mass data 摘要:随着互联网,移动互联网和物联网的发展,谁也无法否认,我们来到了一个海量数据的时代。随着数据积累的越来越多,现在许多行业大多面临基于海量数据的分析问题,该文从基于海量数据挖掘的分析方法出发,利用河南省2005到2009年交通事故的数据,设计了一个数据分析方案。 关键词:海量数据,数据挖掘,回归模型,方案 Abstract: with the development of Internet, mobile Internet and development of Internet of things, nobody can deny that we come to a massive data era. As data accumulate more and more, many industries are facing problems based on large amounts of data analysis . This paper ibased on the analysis of mass data mining method of Henan province from 2005 to 2009, using the data of traffic accidents, designes a data analysis program. Key words: mass data, data mining, regression model, scheme 一、引言 随着信息技术的发展,人们积累的数据越来越多。事实上,数据本身是没有意义的,只有用以进行分析处理才真正起到作用。因此,可以说激增的数据背后更重要的是隐含的信息,人们希望能够对这些数据进行更高层次的分析,以便更好地利用这些数据。 海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。 在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:数据量过大,数据中什么情况都可能存在;软硬件要求高,系统资源占用过高要求很高的处理方法和技巧。时间序列预测法可用于短期、中期和长期预测。根据对资料分析方法的不同,又可分为:简单序时平均数法、加权序时平均数法、移动平均法、加权移动平均法、趋势预测法、指数平滑法、季节性趋势预测法、市场寿命周期预测法等 (二)分析方法简介 回归分析是实际工作中应用最广泛的统计方法之一,概括的讲,回归分析是描述两个或两个以上变量间关系的一种统计方法。在实际工作中回归分析的应用范围很广,回归分析可以求出自变量与因变量之间的经验公式,所以,只要需要定量分析多变量之间相关关系时都是必不可少的。尤其在现在流行的数据挖掘技术中,回归分析也是必不可少的。通过对已知训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。 (三)分析 从图二可以看出,直接财产损失和事故起数、死亡及受伤人数都有关系; 图2 直接财产损失与事故起数、死亡人数和受伤人数的相关折线图 (一)简单相关分析 从简单相关系数(表二)可以看出,在不考虑相互影响的情况下,河南省交通事故直接财产损失与全年交通事故总数、死亡人数和受伤人数均成正向高度相关,这说明上述三个因素都是直接财产损失的重要因素,其重要次序依次为事故起数,死亡人数和受伤人数。 表1 交通事故直接损失与影响因素之间的简单相关系数 因变量Y与自变量X1,X2,X3是直接的关系,因此,在进行多元线性回归的时候将X1,X2,X3直接纳入模型。 (二)回归分析 表2:变量进入情况 1,输入/移去的变量 模型 输入的变量 移去的变量 方法 1 受伤人数, 死亡人数, 事故起数a . 输入 a. 已输入所有请求的变量。 表3:模型拟合度检验 2,模型汇总b 模型 R R 方 调整 R 方 标准 估计的误差 1 .990a .980 .921 7733796.958 a. 预测变量: (常量), 受伤人数, 死亡人数, 事故起数。 b. 因变量: 直接财产损失 表二所示的是对模型拟合度的检验结果。对于多元线性回归模型,一般应采用其调整的决定系数来判断,在本例中,其值为0.921,说明其拟合程度是可以接受的。 表4:方差分析表 Anovab 模型 平方和 df 均方 F Sig. 1 回归 2.970E15 3

文档评论(0)

cuotian + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档