1.大数据集成与交换技术.pptVIP

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

*实现方式优点缺点时戳方式在业务表中统一添加字段作为时戳,当OLTP系统更新修改业务数据时,同时修改时戳字段值源数据抽取相对简单清楚,速度快,适合数据的增量加载需要修改业务表中的数据结构,业务数据变动时工作量比较大,相对风险较大日志表方式在OLTP系统中添加日志表,业务数据发生变化时,更新维护日志表内容不需要修改业务表中的数据结构。源数据抽取简单清楚,速度快,适合数据的增量加载业务系统中更新记录日志操作麻烦全表对比方式抽取所有源数据,在更新目标表之前先根据主键和字段进行数据比对,有更新的进行update或insert对系统表结构没有任何影响,管理维护统一,可以实现数据的增量加载数据比对复杂,设计比较复杂,执行速度慢全表删除插入方式删除目标表数据,将源数据全部插入ETL规则简单,速度快对维表加代理健不适应,OLTP系统有删除数据时,不能在数据仓库体现被删数据,不能实现增量加载1.4大数据集成与交换典型案例*(1)大数据传输Sqoop:能帮助用户在RDBMS和HBase、Hive之间实现数据交流。Sqoop支持任何一款支持JDBC规范的数据库和数据仓库,如Oracle、DB2、SQLServer、MySQL、PostgreSQL、Netezza、Teradata、MicrosoftPDW等*Sqoop使用一个基于连接器的体系架构,这种架构支持用于与外部系统实现连接的插件。Sqoop能够用一种快速并行方式转移数十亿行的数据进入Hadoop,它用MapReduce框架来并行传输数据。Sqoop要么直接将数据放入由Hadoop分布式文件系统(HDFS)管理的数据存储空间,或者也可以应用到其他Hadoop应用程序中,如HBase或Hive。被转移的数据集被切分成不同的分区(partition),一个只有Map的作业被启动,每个独立的Mapper负责转换数据集的每个切分。数据的每个记录被以一种类型安全的方式被处理,因为Sqoop用数据库的元数据来推导数据类型。*Flume:ApacheFlume帮助流数据源,如Web或应用服务器、网络服务或操作系统,直接装载实时数据到HDFS、Hive或HBase中。Flume支持各种源协议,如Avro、Thrift、Syslog和NetCat,也能处理任何分隔符文件格式。Flume也具有在线数据转换和直接消息的能力。用Flume,各种数据源能被收集并以任何格式存储在Hadoop中。一个Flume事件被定义为一个数据流的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息。string属性的集合。Flume的最小独立运行单位称为Agent,一个Agent就是一个JVM过程,它是由Source(源)、Sink(接收地)和Channel(通道)三大组件构成的,Agent管理它的组件以完成事件流从一个外部源到下一个目的地(称为hop)。*Flume数据流Flume中的多路传输*HttpFS:ApacheHadoopHttpFS是一个服务,它能帮助HTPP访问到HDFS,这是为了基于REST(RepresentationalStateTransfer,简称REST,表述性状态转移)的文件流动。HttpFS使得集成Hadoop到一个面向服务架构中变得很简单。由于HttpFS支持与整个Hadoop堆栈(stack)和在线加密的SSL的完全的安全集成,HttpFS提供了一个完全安全的网关来保护敏感数据,如客户的财务记录。*(2)大数据整合Hadoop因为其批处理的特点,最早曾使用ETL进行数据集成。但是,如果用基于ETL解决方案来运行与维护复杂的Hadoop平台上的所有的基础设施,就需要更全面的数据集成工具,例如Informatica、Talend(开源)、Syncsort、CloverETL(开源)等公司的解决方案。多年来,这些公司努力建立最佳组合的ETL解决方案,即数据整合解决方案。**(3)分布式ETL技术架构基于多Agent方式的ETL技术架构该方法是将多Agent系统技术?1引入到分布式计算环境中,该分布式ETL框架把数据抽取、数据转换和数据加载分别对应成各个Agent,同时把每一个模块比如元数据管理、作业管理和转换函数管理等各对应到一个Agent,然后利用Agent之间的协作性、主动性和交互性来构建分布式ETL框架。这种架构可以较好的解决分布式系统中的负载均衡问题,而且也能够实现准实时的数据解析和入库。但是该方式不能较好的保证各个Agent的稳定性,一旦某个Agent出现故障,将会使整个系统处于崩溃状态,甚至有可能导致数据的丢失。*其中”ETL任务设计”模块向用

您可能关注的文档

文档评论(0)

AI智博信息 + 关注
实名认证
文档贡献者

Python数据挖掘

1亿VIP精品文档

相关文档