第十三章 批量数据处理经验分享.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
QA Datastage常有经验-开发规范-过程规范 China Construction Bank. | * 过程管理: 使用datastage进行开发时,一般都是设计人员维护mapping,开发人员根据mapping进行程序开发。 ODS系统在进行开发过程管理时,采用如下的一种方法: 设计人员不仅要设计mapping,而且会设计job,具体方法是设计人员根据mapping,做一个模板job,这个job中只有每个stage及其数据流关系,没有具体的字段等信息;开发人员再根据mapping和这个半成本的job去做细化。这样做的好处是由设计人员来控制job的形态,工作量并不大,但重要的业务逻辑控制在了少量设计人员手中。 Datastage常有经验-使用注释 China Construction Bank. | * Datastage job提供注释,但目前开发中使用的较少,比较良好的注释方式如下: Datastage常有经验-版本管理 China Construction Bank. | * Datastage提供版本管理工具,但使用方式比较复杂,难以满足我行版本管理的要求。 目前常见的方式是每个job单独创建一个dsx包,放在CC上作为文件管理。可以通过自己编写的工具程序,把一个大的dsx包切分成小的dsx文件。 Datastage常有经验-并行处理-灵活使用分区 China Construction Bank. | * 分区并行处理是datastage paralleljob最大的特点,可以极大的提高性能。为了实现高效的并行处理,最好在系统上做如下设计: 建立多个文件系统,最好分布在不同的存储上; 通过修改default.apt文件,或建立新的apt文件,把不同的并行节点使用的缓冲和dataset分布在不同的文件系统上; 这样,当datastage生成dataset时,会写入不同的文件系统,IO会比较好;同时所有并行节点产生的缓冲(scratch目录),将使用不同的文件系统。 Datastage常有经验-并行处理-使用dataset China Construction Bank. | * Dataset是datastage最大的特色,采用分区方式存放数据,读写效率都非常高。使用datastage进行数据计算的方式区分于在数据库中用sql或存储过程进行计算的关键点也在于dataset。 如果一个大的sql在数据库中运行,因为某种原因报错,必须要完全重新运行一次,无法使用中间的计算结果,除非把这个sql拆分,然后保留中间计算结果在表或文件中,无论哪种方式必然造成效率的降低。 Datastage在做相同的计算时,任何中间结果都可以保留在dataset中,dataset生成的速度很快(并行写入),而且从dataset中读取这些数据的效率要大大优于从数据库中读取,因此这种计算工作的拆分不会造成太大的效率降低。 因此,如果充分利用dataset的性能优势,datastage的批量数据处理和用sql和存储过程有很大差异。Datastage可以在系统不繁忙时预先生成大量的dataset数据,加工成应用可以直接使用的格式并排好序,然后等待“关键数据”的就绪,一旦“关键数据”就绪,就从dataset中高效的读取数据,并和“关键数据”做关联、汇总等计算,最后生成结果,这样,从“关键数据”就绪到加工出结果,时间会大大缩短。 ACRM系统和OCRM系统做的“大海捞针”动作,每日都在10亿左右的1560中找到所有的VIP客户的账户,并与OCRM提供的全量账户比对并发现差别,采用此方式后,能保证在几个小时内完成,大大提高了效率。 Datastage常有经验-并行处理-使用并行节点 China Construction Bank. | * Parallel stage可以极大的提高数据处理效率,但同时系统资源占用也比较厉害。要注意的问题主要有: 所有并行节点必须采用相同的分区方式,如果分区方式有差异会造成结果数据错误,而且没有任何提示; 分区的键值的数据结构必须完全相同,即使都是varchar,长度也必须一样,否则有可能出现关联不到的情况; Datastage常有经验-修改数据库 China Construction Bank. | * 不建议使用datastage的insert、update、update_or_insert、delete等方式修改数据库,这样做有两个问题

您可能关注的文档

文档评论(0)

xiaofei2001128 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档