《大数据挖掘与统计机器学习(第3版)》 课件 7-智能手机用户监测数据案例分析.pptx

《大数据挖掘与统计机器学习(第3版)》 课件 7-智能手机用户监测数据案例分析.pptx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第7章智能手机用户监测数据案例分析;7.1数据简介

该数据来自某公司某年连续30天的4万多智能手机用户的监测数据。每天的数据为1个txt文件,共10列,记录了每个用户(以uid为唯一标识)每天使用各款APP(以appid为唯一标识)的起始时间、使用时长、上下行流量等。此外,有一个辅助表格,app_class.csv,共两列.第一列是appid,第二列给出4000多个常用APP所属类别(app_class),比如视频类、游戏类、社交类等,用英文字母a-t表示。其余APP不常用,所属类别未知。数据可从中国人民大学出版社()下载。交类等,用英文字母a-t表示。其余APP不常用,所属类别未知。;3;7.2单机实现

7.2.1描述统计分析

1.用户记录的有效情况

如果一个用户在一天中没有任何APP的使用记录,则该用户在该天记录缺失,据此统计每位用户在30天中的有效记录天数。

2.各类APP的使用强度和相关性

(1)对每天的每条数据记录计算使用时长

(2)对每一天的数据进行分类汇总,得到每人每天使用每 种类别APP的总时长。

(3)汇总30天的数据,得到每人使用每种类别APP的总 时长(有效观测天数内的总时长)。

;5;6;7;7.2.2APP使用情况预测分析

本节对用户使用APP的情况进行预测。我们要研究的问题是通过用户的APP使用记录预测用户未来是否使用APP(分类问题)及使用时长(回归问题)。

分类。根据用户第1-23天的某类APP的使用情况,来预测用户在第24~30天是否会使用该类APP。处理后的数据随机选取80%作为训练集,20%作为测试集,模型选用随机森林。

回归。与上一部分分类不同的是,这里要预测的是第24~30天用户使用某类APP的有效日均使用时长,24~30天是否会使用该类APP。案例的预测模型选取的是随机森林。

;9;10;11;7.2.3用户行为聚类分析

(1)用户APP使用差异情况聚类

对于在描述统计分析中得到的用户对20类APP有效使用天数的日均使用强度数据(对数变换之后),我们选用K均值聚类。

(2)RFM聚类

基于原始数据,借鉴度量消费者行为的三个重要指标RFM——最近一次消费(Recency)、消费频率(Frequency)和消费金额(Monetary),针对APP数据构造最近一次使用(最近一次使用距离最后一天的天数)、使用频率(使用天数除以有效观测天数)和有效使用时长(使用总时长除以使用天数)三个指标,以标准化后的这三个变量作为特征对人群进行聚类分析。

;13;14;7.3分布式实现

7.3.1数据预处理与描述分析

由于原始数据是结构化的记录数据,因此可以利用Hive进行数据预处理。

7.3.2基于Spark的模型分析

数据准备完毕之后,可以利用Spark中的MLlib对数据进行模型分析。在此我们进行7.2.2中单机版的i类APP的用户行为预测(分类和回归)。预测方法为随机森林。

接下来,我们使用Spark中的MLlib进行K-means聚类分析,以单机版第一个聚类分析为例。;16

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档