大数据技术体系现状.pdf

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术体系现状

中国大数据技术与产业发展白皮书 (2013 ) 第三章 大数据技术体系现状 根据大数据处理的生命周期,大数据的技术体系通常可以分为大数据采集与 预处理,大数据存储与管理,大数据计算模式与系统,大数据分析与挖掘,大数 据可视化计算以及大数据隐私与安全等几个方面。 3.1 大数据采集与预处理 3.1.1 问题与挑战 根据MapReduce 产生数据的应用系统分类,大数据的采集主要有四种来源: 管理信息系统、Web 信息系统、物理信息系统、科学实验系统。 1. 管理信息系统是指企业、机关内部的信息系统,如事务处理系统、办公自动 化系统,主要用于经营和管理,为特定用户的工作和业务提供支持。数据的 产生既有终端用户的原始输入,也有系统的二次加工处理。系统的组织结构 上是专用的,数据通常是结构化的。 2. Web 信息系统包括互联网上的各种信息系统,如社交网站、社会媒体、有哪些信誉好的足球投注网站 引擎等,主要用于构造虚拟的信息空间,为广大用户提供信息服务和社交服 务。系统的组织结构是开放式的,大部分数据是半结构化或无结构的。数据 的产生者主要是在线用户。电子商务、电子政务是在Web 上运行的管理信息 系统。 3. 物理信息系统是指关于各种物理对象和物理过程的信息系统,如实时监控、 实时检测,主要用于生产调度、过程控制、现场指挥、环境保护等。系统的 组织结构上是封闭的,数据由各种嵌入式传感设备产生的,可以是关于物理、 化学、生物等性质和状态的基本测量值,也可以是关于行为和状态的音频、 视频等多媒体数据。 4. 科学实验系统,实际上也属于物理信息系统,但其实验环境是预先设定的, 主要用于研究和学术,数据是有选择的、可控的,有时可能是人工模拟生成 的仿真数据。 在物理信息系统中,对于一个具体的物理对象,可采用不同观测手段,对其 45 中国大数据技术与产业发展白皮书 (2013 ) 不同的属性(方面)进行测量,如测量一辆行驶汽车的尺寸、速度、路线、尾气、 外观等,其观测结果为具有不同形式的数据,这些数据代表实体不同的模态,称 为多模态(multi-modal) 。对于一个实体的多模态原始数据,需要做融合处理(data fusion) 。在融合处理中,需要减少误差,保证数据的完整性和正确性。在高级的 嵌入式系统或数据采集系统中,通常具有数据质量控制和数据融合处理功能[2] 。 从人-机-物三元世界观点看,管理信息系统和Web 信息系统属于人与计算机 的交互系统,物理信息系统属于物与计算机的交互系统。关于物理世界的原始数 据,在人-机系统中,是通过人实现融合处理的;而在物-机系统中,需要通过计 算机等装置做专门的处理。融合处理后的数据,被转换为规范的数据结构,输入 并存储在专门的数据管理系统中,如文件或数据库,形成专门的数据集。 对于不同的数据集,可能存在不同的结构和模式,如文件、XML 树、关系 表等,表现为数据的异构性(heterogeneity )。对多个异构的数据集,需要做进一 步集成处理(data integration )或整合处理(data consolidation ),将来自不同数据 集的数据收集、整理、清洗,转换后,生成到一个新的数据集,为后续查询和分 析处理提供统一的数据视图。 通常大数据描述了一个对象(物理的或逻辑的)或一个过程的全景式的和全 周期的状态,因此,其来源必然是多源的,其形式是多模态的。数据的多源和多 模态的不确定性和多样性,必然导致数据的质量存在差异,严重影响到数据的可 用性。由于数据量的大规模性,即使错误数据的相对比例不大,而绝对的错误数 据量也是非常可观的。据国际咨询机构调查,全球财富 1000 强企业中25% 以上 的企业信息信息系统存在不正确的数据,美国企业信息系统中1%-30%的数据存 在各种错误,美国工业企业由于数据错误而引起的生产事故和决策错误,每年造 成6000 多亿美元的损失[3] 。 数据的可用性取决于数据质量。数据质量的定义有很多说法。按照文献[4] 的定义,数据质量包含5 种特性:精确性、一致性、完整性、同一性和实效性。 精确性指数据符合规定的精度,不超出误差范围;一致性指数据之间不能存在相 互矛盾;完整性指数据的值不能为空;同一性指实体的标

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档