- 1、本文档共260页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
目录
美团酒旅数据治理实践......................................................................................4
有赞数据治理之提质降本................................................................................25
滴滴数据指标体系建设实践............................................................................42
联邦学习与安全多方计算................................................................................69
京东超大规模联邦学习探索实践....................................................................92
微众银行在联邦推荐算法上的探索及应用.................................................113
新一代联邦学习技术及应用实战.................................................................143
爱奇艺数据中台的建设实践.........................................................................176
金融资管数据中台体系探索实践.................................................................203
贝壳商业化算法中台架构实践.....................................................................226;美团酒旅数据治理实践;据开发过程中会不断引入一些问题,而数据治理就是要不断消除引入的问题,以
高质量、高可用、高安全的方式为业务提供数据。;?;?;1.标准化和组织保障
每个公司在做数据治理时都会提到标准化,我们总体思路也没有太大区别。数据标准化包括三个方面:第一是标准制定,第二是标准执行,第三是在标准制定和执行过程中的组织保障,比如怎么让标准能在数据技术部门、业务部门和相关商业分析部门统一。;从标准制定上,我们制定了一个全链路的数据标准方法,从数据采集、数仓开发、
指标管理到数据生命周期管理建立了很多标准,在标准化建立过程中联合组建了一个业务部门的数据管理委员会。管理委员会是一个虚拟的组织,主要组成是技术部门和业务部门,技术部门是业务数据的开发团队,业务部门是业务数据的产品团队,这两个团队作为实现的负责人,各自对接技术团队和业务团队,比如技术团队负责协调后台开发团队、大数据平台团队、数据分析系统团队等。业务则会协调商业分析、产品运营和一些业务部门。业务各个部门分别出人把数据管理委员会??行起来,为标准制定、执行提供组织保障。让大家对标准化制定能有更加统一的认知,执行过程阻力也更小,还能定期在组织内同步信息。
技术体系
在执行过程中也不希望完全通过人力和组织来推动达成,总体希望以一些自动化的方式进行。下面介绍一下我们的技术体系。
①数据质量,数据质量是数据质量中最重要的一个问题,现在数据治理的大部分问题都属于数据质量。这里有四大问题:
数据仓库的综合性比较差,虽然有一些规范文档,但更依赖个人理解去执行。
数据一致性问题多,主要表现在数据指标的管理上。指标管理以前在文档中定义指标,没有系统化的统一管理逻辑和查询逻辑。
数据应用非常多,使用数据的方式包括数据表同步、接口消息推送、OLAP引擎查询等,不能保证数据应用端的数据一致性。;我们的技术实现方式是为了解决上面这四大类质量问题,首先在数据仓库规范性
上进行统一,然后统一指标逻辑,在此之上统一数据服务接口,最后在产品上统一用户产品入口。从这四大方向将常见的数据质量问题管控起来,具体技术实现方式如下。;事前的标准化规范几个方向,第一是数据仓库的设计规范,在做一个新业务或模
块之前,以文档形式做一些设计规范。第二是开发规范,包括一些开发流程、代码编写规范和注释信息。
这些形成之后还想在事中以系统化的方式进行控制,保证不会因为每个人的不同理解而对数仓的规范化构成影响。这里主要包含三部分工具:
模型开发过程中的开发工具,主要控制模型的基础信息、数仓主题和分层以及ETL代码生成。
命名规范工具,针对模型、表、字
动点策划通过提供各行各业经典策划案例,策划思路,行业必威体育精装版动态,旨在做好你的助手,为你正在谋划的事情提供框架思路或创作灵感。
文档评论(0)