DataStageStage使用.docVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Funnel阶段 Funnel阶段是一个处理阶段。它将多个输入数据集复制到单个数据集,该操作对于将单独数据集合并到单个大型数据集而言非常有用。该阶段可以有众多输入链接和一个输出链接 Funnel阶段能够以下列三种方式之一运行: 连续传送以不可保证顺序合并输入数据的记录。它依次从每个输入链接获取一条记录。如果输入链接上的数据不可用,那么该阶段会跳至下一个链接,而不是等待。 排序传送按照一个或多个键列的值定义的顺序合并输入记录,输出记录的顺序由这绡排序键确定。 顺序将第一个输入数据集中的所有记录复制到输出数据集,然后将第二个输入数据集中的所有记录复制到输出数据集,依此类推。 对于所有方法,所有数据数据集的元数据都必须椒相同的。 排序传送方法对于其输入数据有一些特定要求。所有输入数据集都 必须根据Funnel操作的键列进行排序。 通常,排序传送操作的所有输入数据集在排序之前都是散列分区的(选择自动分区方法将确保完成这一操作).散列分区可确保具有相同键列值的所有记录都位于同一分区中,以便在同一个节点上处理。如果在Funnel阶段之前在单独的阶段上执行排序和分区,那么必须保留该分区 排序传送操作允许您设置一个主键和多个辅键以确定将输出的记录的顺序。 Funnel阶段:快速路径 InfoSphere DataStage有许多缺省设置,这表示您能够载作业中轻松包含Funnel阶段。本部分指定了要使Funnel阶段运行所需的最少步骤。InfoSphere DataStage提供了多样化的用户界面,且提供了许多快捷方式供您达到特定目标,本部分描述了基本方法。 要使用Funnel阶段: 在“阶段”页面的属性选项卡中,指定“传送类型”。“连续传送”为缺省值,但也可以选择“顺序”或“排序传送”。 如果选择使用“排序传送”方法,则还需要指定对数据进行排序所依据的键。可以重复使用键属性来指定组合键。 如果使用“顺序”方法,请在“阶段”页面的“链接排序”选项卡中,指定合并数据集的顺序。 在“输出”页面的“映射”选项卡中,指定如何派生输出列的方法,即将那些输入列映射到输出列,或如何生成这些输出列。 Funnel阶段:“属性”选项卡 在“属性”选项卡中,可指定确定阶段实际执行那些操作的属性。某些属性是必须的,尽管许多属性都有缺省设置。无缺省设置的属性显示为警告色(缺省为红色),当你为其提供值后变为黑色。 Funnel阶段:“高级”选项卡 执行方式。阶段可以并行方式或顺序方式执行。默认椒并行方式 组合方式。缺省情况下为“自动”方式。该方式允许InfoSphere DataStage合并那些处于并行阶段底层的操作程序,以使他们能够在同一阶段尝试保留分区。 保留分区。缺省值为传播。也可以设置为设置或清除 Funnel阶段:“链接排序”选项卡 该选项卡允许您指定处理输入到Funnel阶段的链接顺序。仅当选择了“顺序”funnel类型时才需要使用该选项卡。 Funnel阶段:输入页面 输入页面主要包括常规选项卡(添加描述内容),分区选项卡(设置分区类型),键列,高级选项卡(设置缓冲方式) Funnel阶段:输出页面 输入页面主要包括常规选项卡(添加描述内容),映射选项卡(设置分区类型),键列,高级选项卡(设置缓冲方式) Remove Duplicates阶段 Remove Duplicates节点是一个处理阶段,该阶段可具有一个输入链接和一个输出链接。Remove Duplicates阶段可将单个已排序数据集作为输入、除去所有的重复行并将结果定入输出数据集。 除去重复记录是一种在执行进一步处理前清理数据集的常用方法。如果输入数据集内的相邻两行中存在相同的键列值,那么会将这两行视为重复行。键列是被指定于确定是否相同的任意列。 输入Remove Duplicates阶段的数据集必须已进行过排序,以使所有具有相同键列值的处于相邻位置。实现这一点,可以使用“输入页面” 的分区选项卡上的阶段内排序工具或使用Sort阶段作为Remove Duplicates阶段的输入 Remove Duplicates阶段:快速路径 InfoSphere DataStage有许多缺省设置,这表示您能够在作业中轻松保护Remove Duplicates阶段。本部分指定了要Remove Duplicates阶段运行所需的最少步骤。InfoSphere DataStage提供了多样化的用户界面,且提供了许多快捷方式供您达到特定目标,本部分描述了基本方法。 要使Remove Duplicates阶段: 在“阶段”页面的“属性”选项卡中,选择键列,将采用该列中相同的值来百事重复行,该阶段将除去这些行。重复使用此属性可指定组合键。 在“输出”页面的“映射”选项卡中,指定如何派生输入列 Remove Dupli

文档评论(0)

185****7617 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档