《大数据及人工智能》应知应会手册.pdf

《大数据及人工智能》应知应会手册.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

1.1大数据基础知识

1.1.1大数据应用流程

数据源数据采集数据建模数据加工

1.1.2大数据数据采集:

flume(日志收集系统)Kafka(分布式发布订阅消息系统)

1.1.3Flume介绍:

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的

系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对

数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。

1.1.3.1Flume核心概念:

Client:Client生产数据,运行在一个独立的线程。

Event:一个数据单元,消息头和消息体组成。(Events可以是日志记录、avro对象等。)

Flow:Event从源点到达目的点的迁移的抽象。

Agent:一个独立的Flume进程,包含组件Source、Channel、Sink。(Agent使用JVM运

行Flume。每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks。)

Source:数据收集组件。(source从Client收集数据,传递给Channel)

Channel:中转Event的一个临时存储,保存由Source组件传递过来的Event。(Channel

连接sources和sinks,这个有点像一个队列。)

Sink:从Channel中读取并移除Event,将Event传递到FlowPipeline中的下一个Agent

(如果有的话)(Sink从Channel收集数据,运行在一个独立线程。)

1.1.3.2Flume的可靠性:

Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数据agent

首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。),

Storeonfailure(这也是scribe采用的策略,当数据接收方crash时,将数据写到本地,待恢

复后,继续发送),Besteffort(数据发送到接收方后,不会进行确认)。

1.1.4Kafka介绍:

Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于

zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、

访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

主要应用场景:日志收集系统和消息系统。

1.1.4.1Kafka的优点:

1、解耦;2、冗余;3、扩展性;4、灵活性;5、可恢复性;6、顺序保证;7、缓冲;8、

异步通信

1.1.4.2Kafka一些核心概念:

1、Kafka集群包含一个或多个服务器,服务器节点称为broker。

2、每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。

3、topic中的数据分割为一个或多个partition。每个topic至少有一个partition。

4、Producer(生产者)即数据的发布者,该角色将消息发布到Kafka的topic中。

5、Consumer消费者可以从broker中读取数据。消费者可以消费多个topic中的数据。

6、每个partition有多个副本,其中有且仅有一个作为Leader,Leader是当前负责数据的读

写的partition。

7、Follower跟随Leader,所有写请求都通过Leader路由,数据变更会广播给所有Follower,

Follower与Leader保持数据同步。如果Leader失效,则从Follower中选举出一个新的Leader。

当Follower与Leader挂掉、卡住或者同步太慢,leader会把这个follower从“insyncreplicas”

(ISR)列表中删除,重新创建一个Follower。

1.1.5Hadoop介绍:

Hadoop是一个

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档