- 1、本文档共49页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
QA Datastage常有经验-开发规范-过程规范 China Construction Bank. | * 过程管理: 使用datastage进行开发时,一般都是设计人员维护mapping,开发人员根据mapping进行程序开发。 ODS系统在进行开发过程管理时,采用如下的一种方法: 设计人员不仅要设计mapping,而且会设计job,具体方法是设计人员根据mapping,做一个模板job,这个job中只有每个stage及其数据流关系,没有具体的字段等信息;开发人员再根据mapping和这个半成本的job去做细化。这样做的好处是由设计人员来控制job的形态,工作量并不大,但重要的业务逻辑控制在了少量设计人员手中。 Datastage常有经验-使用注释 China Construction Bank. | * Datastage job提供注释,但目前开发中使用的较少,比较良好的注释方式如下: Datastage常有经验-版本管理 China Construction Bank. | * Datastage提供版本管理工具,但使用方式比较复杂,难以满足我行版本管理的要求。 目前常见的方式是每个job单独创建一个dsx包,放在CC上作为文件管理。可以通过自己编写的工具程序,把一个大的dsx包切分成小的dsx文件。 Datastage常有经验-并行处理-灵活使用分区 China Construction Bank. | * 分区并行处理是datastage paralleljob最大的特点,可以极大的提高性能。为了实现高效的并行处理,最好在系统上做如下设计: 建立多个文件系统,最好分布在不同的存储上; 通过修改default.apt文件,或建立新的apt文件,把不同的并行节点使用的缓冲和dataset分布在不同的文件系统上; 这样,当datastage生成dataset时,会写入不同的文件系统,IO会比较好;同时所有并行节点产生的缓冲(scratch目录),将使用不同的文件系统。 Datastage常有经验-并行处理-使用dataset China Construction Bank. | * Dataset是datastage最大的特色,采用分区方式存放数据,读写效率都非常高。使用datastage进行数据计算的方式区分于在数据库中用sql或存储过程进行计算的关键点也在于dataset。 如果一个大的sql在数据库中运行,因为某种原因报错,必须要完全重新运行一次,无法使用中间的计算结果,除非把这个sql拆分,然后保留中间计算结果在表或文件中,无论哪种方式必然造成效率的降低。 Datastage在做相同的计算时,任何中间结果都可以保留在dataset中,dataset生成的速度很快(并行写入),而且从dataset中读取这些数据的效率要大大优于从数据库中读取,因此这种计算工作的拆分不会造成太大的效率降低。 因此,如果充分利用dataset的性能优势,datastage的批量数据处理和用sql和存储过程有很大差异。Datastage可以在系统不繁忙时预先生成大量的dataset数据,加工成应用可以直接使用的格式并排好序,然后等待“关键数据”的就绪,一旦“关键数据”就绪,就从dataset中高效的读取数据,并和“关键数据”做关联、汇总等计算,最后生成结果,这样,从“关键数据”就绪到加工出结果,时间会大大缩短。 ACRM系统和OCRM系统做的“大海捞针”动作,每日都在10亿左右的1560中找到所有的VIP客户的账户,并与OCRM提供的全量账户比对并发现差别,采用此方式后,能保证在几个小时内完成,大大提高了效率。 Datastage常有经验-并行处理-使用并行节点 China Construction Bank. | * Parallel stage可以极大的提高数据处理效率,但同时系统资源占用也比较厉害。要注意的问题主要有: 所有并行节点必须采用相同的分区方式,如果分区方式有差异会造成结果数据错误,而且没有任何提示; 分区的键值的数据结构必须完全相同,即使都是varchar,长度也必须一样,否则有可能出现关联不到的情况; Datastage常有经验-修改数据库 China Construction Bank. | * 不建议使用datastage的insert、update、update_or_insert、delete等方式修改数据库,这样做有两个问题
您可能关注的文档
- 加密软件-酷卫士安全系统大平台(功能与证书).pdf
- 第2章 均值向量及协方差阵检验.ppt
- 四.M文件及流程控制(matlab).ppt
- 发展型社会政策与其对我们的启示.pdf
- 第二章 3.8 安全设施设计专篇 产品罐区.pdf
- 第九章 高效会议运作.ppt
- 第六章 C#+3.0网络编程.pdf
- 函数及编译预处理第5章.ppt
- 数据库原理(3-1)要领.ppt
- 第二章:表单及模板.pdf
- Module 5讲练结合-2022-2023学年五年级英语下册期中知识大串讲(外研版).docx
- Unit 1 必背知识(知识清单) -2023-2024学年英语五年级下册单元速记·巧练系列(译林版三起).docx
- Module4(基础卷)-2023-2024学年英语四年级下册单元速记·巧练系列(外研版三起).docx
- Unit 1 重难点(知识清单)-2023-2024学年英语六年级下册单元速记·巧练系列(译林版三起).docx
- Module 5(基础卷)2023-2024学年三年级英语上册单元培优进阶训练(广州教科版用).docx
- Module10(基础卷)-2023-2024学年英语四年级下册单元速记·巧练系列(外研版三起).docx
- Unit 4 I live in a big house(课时练)-四年级英语上册 教科版广州.docx
- Module 6(提升卷)2023-2024学年六年级英语上册单元培优进阶训练(广州教科版用).docx
- Module6(基础卷)-2023-2024学年英语五年级下册单元速记·巧练系列(外研版三起).docx
- Unit 3 Welcome to my house(课时练)-四年级英语上册 教科版广州.docx
最近下载
- 基于核心素养小学数学计算教学研究.doc VIP
- 2024江西赣州市国资委招聘出资监管企业内设监事会人员21人【综合基础知识500题】高频考点模拟试题及参考答案解析.docx VIP
- Shimano禧玛诺渔具 电动轮BeastMaster 2000EJ(04163)说明书.pdf
- 卫生院科室设置及职能范文.docx
- 北京市大兴区2023-2024学年九年级上学期期中数学试题.docx
- 铝合金门窗节能专项施工方案.doc
- 经典成语故事郑人买履.ppt VIP
- 基于核心素养小学数学计算教学研究.doc VIP
- 2024-2030年中国化工仓储行业市场发展趋势与前景展望战略分析报告.docx
- WST 356-2024 参考物质互换性评估指南.pdf
文档评论(0)