云计算与大数据技术 课件 第8章 数据采集工具和消息队列.pptx

云计算与大数据技术 课件 第8章 数据采集工具和消息队列.pptx

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据采集概述

大数据来源大数据主要来源于互联网公司、物联网设备、部分企业及政府部门的数据资源。在各行业海量的数据中,大约20%属于结构化数据,80%属于广泛存在于社交网络、物联网、电子商务等领域的非结构化数据。日志数据,如页面展示日志采集,采集页面浏览量(PageView,PV)和访客数(UniqueVisitors,UV);页面交互日志采集,采集用户的互动行为数据,量化获知用户的兴趣点和体验优化点等。

8.1.2数据采集途径1.系统日志采集系统日志采集主要是指收集互联网应用平台、移动互联网平台、公司业务平台等日常产生的大量日志数据,供离线和在线的大数据分析系统使用的过程。常见的采集工具有Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等。

8.1.2数据采集途径2.互联网数据采集互联网数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。爬虫可分为通用爬虫(如百度、Google等通用搜素引擎)、自有爬虫、聚焦爬虫(如采用商业或开源爬虫工具爬取专业或研究领域数据)。

8.1.2数据采集途径网站公开API:北京市公共数据开放平台、中国国家统计局网站等会提供公开的数据。

8.1.2数据采集途径3.App移动端数据采集由于移动App实际上是通过HTTP与服务器进行交互的,因此可以采用抓包、Hook等方式完成数据的采集,也可以采用埋点技术完成数据采集。埋点是指在产品使用过程中,通过对用户事件的追踪,获取需要统计的用户数据,进而分析产品使用情况。针对一个手机端App来说,埋点有前端埋点、后端埋点(后端数据收集)两种方法。

8.1.2数据采集途径4.数据服务机构数据采集数据服务机构通常具备规范的数据共享和交易渠道,提供大数据采集服务、大数据交易服务、大数据分析服务、大数据可视化服务、大数据安全服务等,

8.1.2数据采集途径贵阳大数据交易所网站

8.1.2数据采集途径中国国家统计局网站

8.1.2数据采集途径5.企业大数据服务平台数据采集企业通过部署大数据服务平台,实现跨部门数据的传输、加载、清洗、转换和整合,以完成企业内部和外部的大数据采集工作。6.智能感知设备数据采集智能感知设备数据采集是指通过传感器、摄像头和其他智能终端自动地采集信号、图片或录像来获取数据。

数据采集概述

FlumeNGFlumeNG是一个高度可靠、可扩展且分布式的系统,用于收集、聚合和传输海量日志数据。使用FlumeNG可以将从多个服务器中获取的数据迅速移交给Hadoop。FlumeNG还可以用于接入和收集大规模的社交网络节点事件数据,如来自QQ、微信或淘宝等的数据。

FlumeNG的基本架构Agent是FlumeNG的核心组件,它以事件(Event)的形式将数据从源头发送至目的地。

FlumeNG的基本架构Agent主要组成部分包括Source、Channel、Sink;Flume数据传输的基本单元是Event。

Agent主要组成部分Source负责接收各种类型、各种格式的数据,并将其传递给对应的Channel。Channel是一个位于Source和Sink之间的数据缓冲区。它从Source接收数据,并将其存储在内部缓冲区中,直到有Sink消费掉Channel中的数据。Sink不断地从Channel中拉取事件(Event),并批量地将它们从Channel中移除。随后,这些被移除的事件会被批量地写入存储系统、索引系统,或者被发送至另一个FlumeAgent进行处理。

FlumeNG的基本架构Event是Flume数据传输的基本单元,是以“事件”的形式将数据从源头发送到目的地。每个Event由Header和Body两部分组成。

数据迁移工具Sqoop

Sqoop简介Sqoop(SQL-to-Hadoop)是一个将Hadoop和关系数据库中的数据相互转移的工具。它可以将一个关系数据库(如MySQL、Oracle、PostgresSQL等)中的数据导入Hadoop的HDFS、Hive和HBase中,也可以将HDFS的数据导入关系数据库中。

Sqoop简介Sqoop的核心设计思想是利用MapReduce加快数据传输速度。Sqoop的工作机制是将导入或导出命令翻译成MapReduce程序,并在翻译出的MapReduce程序中对InputFormat和OutputFormat进行定制。

Sqoop2架构Sqoop具有Sqoop1和Sqoop2两个版本,它们之间是完全不兼容的。

Sqoop2架构在架构上,Sqoop2引入了SqoopServer,这是一个集中化的管理组件,可以方便地

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档