大数据技术原理与案例应用实践部分.pptxVIP

大数据技术原理与案例应用实践部分.pptx

  1. 1、本文档共134页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据开发案例实训学习介绍主讲人:中移动信息技术有限公司李迪扬

实训平台介绍1实训开发案例介绍2

中国移动梧桐大数据实训平台2023年《全球数字经济白皮书》指出:全球数字经济战略布局新动向的特点是包容性发展政策不断丰富,数字创业与数字素养培育成为重点。全球主要国家形成以中小企业和初创企业市场能力培养、以数字素养和技能养成为抓手的包容性发展政策,助力进一步在全球范围内缩小数字鸿沟加速实现可持续发展目标。集数据、资源、工具、运维、安全等服务为一体的大数据能力开放平台打造以5G、算力网络、能力中台为重点的新型信息基础设施创新构建“连接+算力+能力”新型信息服务体系

中国移动梧桐大数据实训平台2023年5月25日,工业和信息化部新闻宣传中心(人民邮电报社)与山东省通信管理局共同主办的第十七届(2023)中国信息港论坛暨首届数字化转型高峰论坛,在山东青岛召开。由中国移动信息技术中心申报的《中国移动梧桐大数据开放平台》成功入选2023年中国数字化转型优秀案例。数字化转型

中国移动梧桐大数据实训平台数据源数据源包括公共数据和私有数据,数据存放在平台的Hadoop上。提供一体化,低门槛拖拽式数据编排能力,涵盖数据集成、批、流处理、建模存储、策略编排等各个环节。数据挖掘集成JupyterNotebook,响应式自由开发,实现数据挖掘模型。连接抽取分组数据加工数据开发编排加载数据集训练任务Notebook数据变现数据全流程工具链:平台四大核心支撑:平台资源充足:上万台高性能配置x86服务器且采用云化部署,覆盖Hadoop、MPP、关系型数据库、容器、虚拟机、物理机等储算资源;数据资产丰富:数百PB数据资产,汇聚移动全网、全域(B/M/O)优质数据资源,且数据标签完备;工具组件多样:提供大数据计算、数据管理、数据开发等10大类多种组件工具服务,满足多场景大数据应用开发需求;专业服务支撑:配备专职运营、运维、安全服务团队,提供实时运维监控和故障快速响应服务。

数据管理工具数据资产中预置了中国移动客户洞察、DPI上网及位置数据等四类近100个数据集。平台提供SQL编辑器,可帮助用户基于SQL语句进行数据分析。

数据编排工具-数据流数据编排通过对数据进行一系列处理,得到用户需要的数据。数据流经历三个阶段:抽取、转换、加载。如图所示,数据流主要负责对数据集进行抽取、清洗、稽核、装载等处理过程,其多个任务之间传递的是数据集。

数据编排工具-算子介绍目前数据编排工具具备三大类共31个算子,满足用户基本的数据处理需求:(1)抽取:数据的抽取是从各个不同的数据源抽取到ODS(OperationalDataStore,操作型数据存储)中,在抽取的过程中可以挑选不同的抽取方法。(2)转换:数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。(3)加载:数据的加载一般在数据清洗完了之后直接写入DW(DataWarehousing,数据仓库)中。

数据编排工具-抽取算子注意配置分隔符,比赛数据分隔符为€€输出列支持基于表达式进行一些特殊值处理数据源选择活动指定的数据源选择对应的物理模型会自动回填对应的文件路径和文件名

数据编排工具-过滤算子编辑过滤表达式表达式包括(1)有效的字段(2)系统函数使用函数返回值为最终过滤条件的表达式,只能选择返回值为布尔类型的函数。选择过滤结果的输出字段。过滤算子用于对数据集根据函数表达式进行过滤。输出的是满足过滤条件的记录。

数据编排工具-分组算子分组节点用于对数据进行分组和汇总。选择分组字段,相当于SQL语句中的Groupby字段点击“编辑表达式”进行统计表达式编辑。根据需要,通过点击“增加”按钮,增加相应的统计字段只能使用系统提供的各种运算函数。

数据编排工具-连接算子点击“新增映射”配置关联字段,多个字段点击多次即可。在参数配置中配置具体的输出字段信息,非主数据源所有输出字段默认为“否”,需要根据需要手动进行修改。当输出方式为“所有记录”时,不做任何处理,如选择“输出前”或者“输出后”,则输出结果会根据设置进行输出。根据需要选择连接类型连接节点用于将两个数据集按字段进行连接。系统将从两个源数据集中按关键字段查找,并根据连接类型输出字段。

数据编排工具-转换算子转换算子用于对输入文件或数据集中的一个字段或多个字段进行表达式计算。如果不需要处理直接保持“原有字段输出”点击“增加”可以新增新的字段需要对字段进行处理时需要选择“表达式计算”通过选择是否输出来配置字段是否会输出到下一个节点对字段的处理都在转换节点中完成

数据编排工具-加载算子将处理后的数据加载到Hadoop集群。注意配置分隔符数据源选择活动指定的数据源(同HDFS抽取)配置输出文件路径和名

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档