《ODPS权威指南》1.4 一些典型场景.pdfVIP

《ODPS权威指南》1.4 一些典型场景.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
@2017 《ODPS 权威指南》 1.4 一些典型场景 目前,ODPS 平台支撑着阿里巴巴的很多业务系统,包括数据仓库、BI 分析和决策支 持、信用评估和无担保贷款风险控制、广告业务、每天几十亿流量的有哪些信誉好的足球投注网站和推荐相关性分析 等。本节将根据 1.2.4 节提到的三类大数据处理场景,介绍几个真实的典型应用场景。 1.5.1 阿里金融数据仓库 阿里金融数据仓库团队基于 ODPS 构建了一个完善复杂、功能强大的数据仓库体系, 包含六个层次:源数据层、ODS 层、企业数据仓库层、通用维度模型层、应用集市层和展 现层。源数据层处理各个来源数据,包括淘宝、支付宝、B2B、外部数据等。ODS 作为数 据导入的临时存储层。企业数据仓库层采用 3NF 建模方式,按主题(如商品、店铺)进行 划分,包括完整的历史数据。通用维度模型以维度建模方式构建面向通用业务应用的模型层, 不以满足特定的应用为目的,而是屏蔽业务需求变化,以一致性维度和事实的方式为上层提 供数据。应用集市层是面向需求,构建满足某一应用需求的数据集市。展现层提供一些数据 门户(Portal)和服务等,供应用访问。 在这个体系架构中,不可避免地,还会涉及元数 据管理等一些其他方面。 阿里金融的数据仓库主要是基于 ODPS SQL 完成离线计算,并通 过一系列指标规则和算法完成离线决策,输出结果给在线决策使用。 1.5.2 CNZZ 数据仓库 CNZZ 是互联网数据统计分析提供商,为中文网站及中小企业提供专业、权威、独立的 数据统计和分析服务。它基于 ODPS 构建了功能强大的数据仓库,实现数据统计和挖掘。 其数据仓库主要包括三层:ODS 层存储采集的数据,按源头业务系统的数据进行划分的原 始数据存储;数据仓库层(DW 层)面向主题需求,根据数据和需求双向驱动,通过 ETL 从 ODS 层抽取转换,分离为事实表和维度表;集市层(Mart 层)是基于 DW 层,面向特 @2017 定产品需求,比如计算关于 “人”这一主题按地域分布、按行业分布的网民统计分析,从各 种不同角度(如网站,客户端的操作系统、分辨率、移动设备还是 PC 等)进行统计分析等。 1.5.3 支付宝账号影响力圈 支付宝的数据分析师想通过付款关系等信息,绘制账号影响力圈,确定账号的关键程度。 付款关系图可以表示为有向图,账号即节点。很自然地,这个问题可以抽象为图计算,采用 ODPS 图编程模型,确定节点和边,可以很容易实现,最后可以计算出各个节点的权重,即 关键程度。实际上,这个问题和使用经典的 PageRank 算法计算网页权重如出一辙。 1.5.4 阿里金融水文衍生算法 阿里金融 BI 团队的数据分析师需要对淘宝、天猫的卖家进行分类,确定其贷款上限。 其输入数据是卖家信息,包括如销售额等上百项基础数据,标识卖家的各种特征。为了更好 地实现预测,分析师们需要通过建模和算法,获取更多的水文衍生指标,如过去一个月销售 额,衍生的指标可以达到数万项。然后,依据这些指标执行训练完成特征抽取并降维,实现 预测。 在使用 ODPS 之前,衍生计算是在几十台的 SAS 服务器上完成的,在不出错的情 况下也需要历时 30 多天;通过 ODPS MapReduce 编程及 ODPS 机器学习算法(如排名 分位算法等)执行衍生计算,以Key,Value的形式输出结果,只花了4 个小时,极大缩 短了衍生计算周期。 1.5.5 阿里妈妈广告 CTR 预估 CTR 预估(Click-Through Rate Prediction),通俗来讲,就是点击率预 估。在网站的有哪些信誉好的足球投注网站结果页(比如在 上有哪些信誉好的足球投注网站 iPhone),在右侧和下侧会展示一 些广告,广告 CTR 预估即指估计有哪些信誉好的足球投注网站展示的广告被用户点击的可能性。广告收入是很多互 联网企业的主要收入来源。CTR 预估越精确,越有助于业务的推广活动更有针对性。用户 点击广告的可能性就越大,收益就越高。因此,阿里妈妈希望提高广告CTR 预估的准确性, @2017 但面临两大挑战:一是数据规模很庞大,涉及

文档评论(0)

文人教参 + 关注
实名认证
文档贡献者

老师教学,学生学习备考课程、成人语言培训课程及教材等为提升学生终身学习竞争力,塑造学生综合能力素质,赋能学生而努力

版权声明书
用户编号:6103150140000005

1亿VIP精品文档

相关文档