- 1、本文档共28页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
本章小结 (1)数据抽取是指从数据源中抽取对企业有用的或感兴趣的数据的过程,它的实质是将数据从各种原始的业务系统中读取出来,它是大数据工作开展的前提。目前常用以下两种方式来实现数据抽取:关系库中的数据抽取和非关系数据库中的数据抽取。 (2)目前数据抽取被广泛的应用于大型零售业与科研领域。 (3)使用kettle工具可视实现文本数据的抽取和网页数据的抽取。 (4)数据采集又称数据获取,是指利用某些装置,从系统外部采集数据并输入到系统内部的一个接口。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域。 大数据分析 第八章 数据抽取与采集 本章学习目标 了解数据抽取的概念 掌握用kettle实现文本抽取的方法 掌握用kettle实现网页数据抽取的方法 了解数据采集的概念 了解数据采集的平台 8.1 数据抽取概述 数据抽取是指从数据源中抽取对企业有用的或感兴趣的数据的过程,它的实质是将数据从各种原始的业务系统中读取出来,它是大数据工作开展的前提。目前常用以下两种方式来实现数据抽取:关系库中的数据抽取和非关系数据库中的数据抽取。 关系库中的数据抽取 全量抽取 增量抽取 数据抽取中的关键技术 时间戳 触发器方式 全量删除插入 数据抽取的流程一般包含以下几步: 理解数据和数据的来源。 整理、检查和清洗数据。 将清洗好的数据集成,并建立抽取模型。 开展数据抽取与数据转换工作。 将转换后的结果进行临时存放。 确认数据,并将数据最终应用于数据挖掘中。 在具体的数据抽取工具中,可以使用Kettle来抽取数据库中的数据。 目前数据抽取被广泛的应用于大型零售业与科研领域。 8.2 文本抽取与实现 文本文件在Windows中一般是指记事本文件,在本节中主要讲述使用Kettle来将文本文件中的数据抽取到Excel文档中。 CSV文件抽取 CSV 文件是一种常见的文本文件,一般含有表头和行项目。大多数数据处理型软件都含有对 CSV 格式的支持。在本节中主要讲述使用Kettle来将CSV文件中的数据抽取到Excel文档中。 JSON文件抽取 使用Kettle还可以抽取在网络传输中常用的json文件,方法和前面介绍的文件抽取是一样的,在抽取时只需将文件类型更改即可,只是需要自行设置json文件的输入字段。 8.3 网页数据抽取与实现 网页数据抽取是指通过使用相关软件或是书写一定的代码来获取存储在Web中的数据。由于目前在互联网中的数据大多以HTML网页的方式存储和传播,因此在实际工作中一般抽取的网页数据主要是指半结构化数据和非结构化数据,如xml 格式的数据、json 格式的数据或是csv格式的数据等。 在Windows中使用Excel工具可轻松的从网站中抽取数据。 Kettle抽取网页数据 ?8.4 数据采集与实现 数据采集又称数据获取,是指利用某些装置,从系统外部采集数据并输入到系统内部的一个接口。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,比如摄像头、麦克风以及各类传感器等都是数据采集工具。 1)数据采集平台 (1)Flume (2)Kafka (3)Fluentd (4)Splunk Forwarder
文档评论(0)