- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库实例讲解讲述
SCST 数据仓库 实例讲解 Data Warehouse Instance Introduction 内容 实例介绍 1 分析建模 2 ETL过程 3 报表结果 4 实例介绍 某公司提供IPTV网络电视服务。 用户通过公司提供的机顶盒观看IPTV电视节目。 用户的收视行为和点播信息被机顶盒收集并发送给数据库。这些用户点播日志信息每日的数据量非常庞大。 该IPTV系统的数据库中还有用户信息等其他一些信息。 该公司想调查一下各个频道收视率的情况。 收视率的概念 传统收视率的概念:收视率是指在一定时段内收看某一节目的人数(或家户数)占观众总人数(或总家户数)的百分比,即 收视率 = 收看某一节目的人数(或家户数)/ 观众总人数(或总家户数) IPTV的收视率定义:在一定时段内收看某一频道的机顶盒数占有效机顶盒总数的百分比,即 IPTV收视率 = 收看某一频道的机顶盒数 / 有效机顶盒总数 这里有效机顶盒指的是所有被正常观众拥有并可以正常使用的机顶盒。 传统收视率的指标体系 分析处理 派生指标 收 视 率 原始收视信息 时期分析 节目分析 观众构成分析 观众流动分析 开机率 GRP 节目吸引力 收视份额 到达率 观众忠诚度 暴露频次 按户计算的收视率 按人计算的收视率 按时段计算的收视率 按节目计算的收视率 内容 实例介绍 1 分析建模 2 ETL过程 3 报表结果 4 确定主题 挑选以下三个 维度提出主题来进行示范: 时间维:每月全天各时段的收视率情况 空间维:每月美国各地区(州)的收视率情况 用户维:每月按用户类型统计各频道在各类人群中的收视率情况 确定量度 KPI(关键性指标): 基本指标 按时段计算的收视率(量) 按天计算的收视率(量) 按星期(weekday)计算的收视率(量) 按观众地理位置计算的收视率(量) 按用户类型计算的收视率(量) 派生指标: 开机率 收视份额 确定量度 收视量:收看某一频道的机顶盒数。 收视率:在一定时段内收看某一频道的机顶盒数占有效机顶盒总数的百分比。 开机率:某特定时间段内机顶盒平均开机数(不论看何频道)百分比,等于所有频道的收视率的总和。 收视份额:某一规定时段内,某特定频道的观众收视量占观众总收视量的百分比。 确定数据粒度 事实表数据粒度的确定 用户点播日志数据非常巨大,一年的数据量累计达1亿条记录之多。直接对这么大的表做查询或者连接,速度非常慢。 本实例中事实表的粒度取到月,即分析每个月的收视率情况,计算每个月的各项收视率指标。 维度的粒度的选取 时间维:记录的是采样时间点,根据查询主题,这里精确到分钟,和传统收视率一样也取15分钟为间隔。 空间维:根据主题位置精确到州/省较为合适,同时这样用来分析的数据不会太多也不会太少。 确定维度 维度是指分析的各个角度。 关于IPTV的收视率可以从以下三个维度和其不同属性分类、不同层次来分析和研究。 维度 属性类别 层次和子类 用户(观众) 按地理信息 国家>地区/州/省>市 按用户类型 VIP用户/普通用户/…… 节目 按播放方式 直播/频道点播/视频点播 按菜单项目 电视频道/名品推荐/热点推荐/影视点播 按节目类型 电影/电视剧/综艺节目/……(视频点播的类型) 时间 按时间周期 年>季度>月>周>天/星期>小时>分 建立多维模型 t_time_point *time_name time_exp t_location *mac_addr region t_user_type *type_id type_name t_voddemand_info mac_addr user_type begin_time end_time program_name channel_name vod_type 时间维表 空间维表 用户类型维表 事实表 内容 实例介绍 1 分析建模 2 ETL过程 3 报表结果 4 ETL概念 ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写。 ETL是指:将OLTP系统中的数据抽取出来,并将不同数据源的数据进行转换和整合,得出一致性的数据,然后加载到数据仓库中。 ETL是OLTP系统和OLAP系统之间的桥梁,是数据从源系统流入数据仓库的通道。 ETL过程 t_time_point表中数据的获得: 按照多维模型创建时间维表。 参考传统收视率,以15分钟为间隔,向表中填充采样时刻点数据。 时间采样点 0:00 0:15 0:30 …… 23:30 23:45 24:00 time_point 0000 0015 0030 …… 2330 2345 2400 time_exp 00:00 00:15 00:30 …… 23:30 23:45 24:00 t_time_point *tim
文档评论(0)