网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据技术与应用 第2版 课件 第3章 数据采集与清洗.ppt

大数据技术与应用 第2版 课件 第3章 数据采集与清洗.ppt

  1. 1、本文档共123页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

元数据是信息的描述和分类可以实现结构画,从而为机器处理创造了可能。在数据清洗中,第一步就是分析原始数据源,其主要工作是查看各种数据内容。这个步骤包含两个部分,第一就是看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;第二就是抽取一部分主数据,使用人工查看方式,对数据本身有一个直观的了解,并且初步发现一些问题,从而为后面的数据处理工作做准备。元数据管理HTML的head里有一个meta标签。那么它是什么呢?

根据上面的解释,我们应该知道它是“关于文档的信息”了

meta的属性有两种,name和http-equiv.name属性用来描述网页的内容,以便有哪些信誉好的足球投注网站引擎查找。比如这个网页的keywords呀。

http-equiv属性指示服务器在发送实际的文档之前先在要传送给浏览器的MIME文档头部包含名称/值对。

比如:

metahttp-equiv=Content-Languagecontect=zh-CN用以说明主页制作所使用的文字以及语言元数据可以帮助数据平台解决“有哪些数据”、“数据存储有多少”、“数据流中的血缘关系”、“如何找到我需要的数据”、“如何使用数据”和“数据的生产进度”,并对上游线上业务库的同步进度和元信息变更进行监控,及时进行影响分析及预警。本章小结1)数据是大数据应用的基础,研究大数据、分析大数据的前提是拥有大数据。拥有数据的方式有很多种,既可以通过企业自身来采集数据,也可以通过如爬虫等其他方式获取数据。2)目前常用的开源日志采集平台包含有:ApacheFlume、Fluentd、Logstash、Chukwa、Scribe以及SplunkForwarder等。这些采集平台大部分采用的是分布式架构,以满足大规模日志采集的需要。3)网络数据采集是指利用互联网有哪些信誉好的足球投注网站引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。(4)大数据的关键技术包含数据采集、大数据预处理、大数据存储和大数据分析挖掘。4)数据的不断剧增是大数据时代的显著特征,大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。5)数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它研究和解决从数据库中获取信息的问题,并为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。6)ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。数据仓库可以从各种数据源中提取所需的数据,并进行存储、整合与挖掘,从而最终帮助企业的高层管理者或者业务分析人员做出商业战略决策或商业报表。1)数据集市:数据集市(DataMart)简称DM,也叫数据市场。它是在企业中为了满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。2)元数据:元数据,又称中介数据、中继数据,是描述数据的数据,主要是描述数据属性的信息。3)OLAP:OLAP又叫做联机分析处理。OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。4)ODS:ODS也叫作操作性数据,它是是数据仓库体系结构中的一个可选部分,是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。一般而言,ODS是作为数据库到数据仓库的一种过渡。数据集成数据集成正是将把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。数据变换数据变换的目的是将数据变换或者统一为适合挖掘的形式,其主要内容如下:(1)光滑。去掉数据中的噪声。(2)聚集。对数据进行汇总。(3)数据泛化。一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。(4)标准化。通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个小的特定区间内,例如0~1或-1~1的区间内。数据仓库的构建工具ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取、转换、加载至目的端的过程。ETL流程如下:数据抽取。把数据从数据源读出来。数据转换。把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,数据转换也包含数据清洗。数据加载。把处理后的数据加载到目标处,比如数据仓库。ETL常用工具(1)Talend(2)DataStage(3)

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档