面向行为分析的数据治理和应用(19页).pptx

面向行为分析的数据治理和应用(19页).pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

面向行为分析的数据治理和应用

;

目录

常见的数据分析场景

数仓建模方法

数仓建模方法的优劣势

面向行为分析的分析方法-概念

面向行为分析的分析方法-整体架构

面向行为分析的分析方法-分析举例;

结果如何-指用户行为之后,实际产生的结果

业务数据会落库业务数据表。分析业务数据的意义,可以衡量商业价值,是业务最终呈现结果,用以推动公司业务的发展。

电商指标:PV、UV、成交用户数、成交订单数、GMV、客单价、退款率等

广告指标:点击率、转化率、参竞率、竞得率等

金融指标:资产负债率、净利润、流动比率、毛利率等

游戏指标:付费金额、付费人数、付费率、首充人数、首充金额、ARPU、LTV等;;

数仓建模方法的优劣势

优势

方法论成熟:已经在无数的公司中被验证过,更有像《阿里巴巴大数据实践》《BuildingTheDataWarehouse》等优秀的指导书籍。

技术栈成熟:无论是从消息中间件、数据ETL管路,数据湖、数据仓库、数据集市的各种选型等,工业界已经诞生了无数优秀的框架和数据库。

技术供应商支持完善:Google,Amazon,Microsoft,阿里云,腾讯云均提供几乎一站式的服务。

技术人才供给:各个互联网公司都有数据仓库建模的需求,人才供应充分,培养体系完备。

公司推动阻力小:数仓的重要性经历了充分的市场教育,推动起来会比较顺畅,投入产出比也比较好阐述。

应用场景:适合指标类的多维分析数据运算

劣势

建设链条长:数据采集-ODS-DWD-DWT-数据报表和应用。

数据一致性保证有挑战:不同数据主题之间会有指标和字段的重合,在工程和业务之间,不同的工程团队之间都可能造成理解的偏差。

扩展字段流程复杂:表结构需要预先定义,扩展新字段往往需要较长的开发周期和回溯数据周期。

工程实现很难统一:架构评估往往取决于承接的工程团队的过往经验和喜好,同样需求的实现差异较大。

不适合时序形的行为数据分析:因为需要按照用户维度shuffle和开窗,??户行为分析往往比较耗资源。

预聚合不够灵活:当维度不能命中预聚合的维度时,查询会退化成全表聚合。;;

行为分析的解决方案

1.加载Android用户人群_A;加载T的活跃用户人群_B;加载T-7新增用户人群_C

2.(A,B,C)用户群求交=用户人群_D

3.(A,C)用户群求交=用户人群_E

4.(D,E)用户群计算覆盖率;

IDMapping:设备ID和用户ID的关联,用户ID和用户ID的关联

用户数据访问层:执行真正的子查询语句,并行的访问用户数据

元数据层:记录文件和事件事件的关系,列在文件中的偏移量

列存储层:列存的方式存储数据,通过Deltaencoding和Dictionaryencoding优化体积和访问速度;

将查询拆解成计算以下几个子任务:

1.T-7:的新增用户

2.T-7:的android活跃用户

3.T日的活跃用户

汇总子查询的返回结果和Mapping对,最终返回查询结果。

将相对事件翻译成绝对事件,查询是否子查询的结果已经存储在缓存中。

返回:用户ID-用户ID;用户ID-设备ID两种mapping关系对。

对于没有命中缓存的字查询,分布式执行查询计划。

根据查询的时间范围和查询列,加载存储文件到计算节点中。

返回需要参与计算的数据。;

MetadataHeader;

元数据

文件元数据

文件保持相对固定的大小,并按照时间动态分区。

?时间久远,稀疏的文件按照高时间密度做聚合。

?时间近,但稠密的文件按照低时间密度聚合。

单个文件内部按照用户ID和时间排序。

列元数据

行元素按照

一般的查询,只会访问8~16列属性值

减少从存储层到计算层之间加载的数据量;

OneID

追踪用户的设备变化,还原用户事件的最真实状态

?一个用户在多个设备上使用同一个应用,需要对该用户的唯一性进行标识,进而把用户的行为归属到同一个用户上。

?多个用户在同一台设备上操作同一个应用。

?同一个APP内,注册用户前的行为和注册用户后的行为进行关联。

?不同App之间,用户行为进行关联。

IDMapping:

?User_id:Device_id:用来追踪用户的设备使用情况。如广告中的排除老用户场景

?Device_id:Deiv

文档评论(0)

***** + 关注
实名认证
内容提供者

信息系统项目管理师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年08月23日上传了信息系统项目管理师

1亿VIP精品文档

相关文档