六大主流大数据采集平台架构分析.PDF

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
六大主流大数据采集平台架构分析 大数据采集的挑战越来越突出。本文中我们将讨论几种流行的数据收集平台 ,它们大都提供高可靠和高扩 展的数据收集。大多平台都抽象出了输入 ,输出和中间的缓冲的架构。利用分布式的网络连接 ,大多数平 台都能实现一定程度的扩展性和高可靠性。 随着大数据越来越被重视 ,数据采集的挑战变的尤为突出。今天为大家介 绍几款数据采集平台 : ·Apache Flume ·Fluentd ·Logstash ·Chukwa ·Scribe ·Splunk Forwarder 大数据平台与数据采集 任何完整的大数据平台 ,一般包括以下的几个过程 : 数据采集--数据存储--数据处理--数据展现(可视化 ,报表和监控) 图 1 数据采集 其中 ,数据采集是所有数据系统必不可少的 ,随着大数据越来越被重视 , 数据采集的挑战也变的尤为突出。这其中包括 : ·数据源多种多样 ·数据量大 ·变化快 ·如何保证数据采集的可靠性的性能 ·如何避免重复数据 ·如何保证数据的质量 我们今天就来看看当前可用的六款数据采集的产品 ,重点关注它们是如何 做到高可靠 ,高性能和高扩展。 1、Apache Flume Flume 是 Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客 户扩展的数据采集系统。 Flume使用JRuby 来构建 ,所以依赖 Java运行环境。 Flume最初是由Cloudera 的工程师设计用于合并日志数据的系统 ,后来 逐渐发展用于处理流数据事件。 图 2 Apache Flume Flume设计成一个分布式的管道架构 ,可以看作在数据源和目的地之间有 一个 Agent 的网络 ,支持数据路由。 图 3 Flume 每一个 agent 都由Source ,Channel和 Sink组成。 Source Source负责接收输入数据 ,并将数据写入管道。Flume 的 Source支持 HTTP ,JMS ,RPC ,NetCat ,Exec ,Spooling Directory。其中 Spooling支 持监视一个目录或者文件 ,解析其中新生成的事件。 Channel Channel 存储 ,缓存从 source到 Sink的中间数据。可使用不同的配置来 做 Channel ,例如内存 ,文件 ,JDBC等。使用内存性能高但不持久 ,有可能丢 数据。使用文件更可靠 ,但性能不如内存。 Sink Sink负责从管道中读出数据并发给下一个 Agent 或者最终的目的地。Sink 支持的不同目的地种类包括 :HDFS ,HBASE ,Solr ,ElasticSearch ,File ,Logger 或者其它的 Flume Agent。 图4 Sink Flume在 source和 sink端都使用了transaction机制保证在数据传输中 没有数据丢失。 图 5 Flume Source上的数据可以复制到不同的通道上。每一个 Channel也可以连接 不同数量的 Sink。这样连接不同配置的Agent 就可以组成一个复杂的数据收集 网络。通过对 agent 的配置 ,可以组成一个路由复杂的数据传输网络。 图6 Source 配置如上图所示的agent 结构 ,Flume支持设置 sink的 Failover和 Load Balance ,这样就可以保证即使有一个 agent失效的情况下 ,整个系统仍能正常 收集数据。 图7 Flume Flume 中传输的内容定义为事件(Event) ,事件由 Headers(包含元数据 , Meta Data)和 Payload组成。 Flume

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档