- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
广西移动《大数据挖掘与智慧运营实战培训》强化学习阶段测试题
姓名所在部门所属课题
考试说明:本考试题共四大题,满分150分,包含两个附件,附件1“客户流失分析训练集.xls”和附件2“客户流失预测检验集.xls”,考试结束请将本文档和附件2一并交回。
一、选择题(单选题,每题4分,共20分,请选出您认为最正确的一个答案)
1、以下哪个不属于数据挖掘的范畴(D)
A.分类分析 B.回归分析
C.聚类分析 D.数据复制
2、以下哪一条是中国移动在未来大数据运营发展中的明显优势(A)
A.拥有海量的数据资源
B.在大数据领域拥有全世界最多的知识产权
C.拥有最丰富的大数据运营经验
D.拥有全世界最先进的大数据人才队伍
3、下图展示了两条ROC曲线,请问若希望TruePositiveRate不小于0.9,哪条曲线代表的分类器效果较好(B)
A.M1 B.M2 C.两者一样 D.需计算具体的AUC
4、以下哪个算法不是分类算法(C)
A.ID3决策树 B.K近邻算法 C.Apriori算法 D.逻辑回归
5、下图为决策树预测客户是否流失的分类表(1表示流失),请问对于检验样本来说误判率为多少(A)
A.23.9% B.8.9% C.76.1% D.98.3%
二、判断题(每题4分,共20分)
在分类算法中,命中率和误判率之和一般等于1。(错)
数据挖掘的重要意义之一在于它能构造出人发现不了的规律。(对)
Apriori算法和穷举关联分析相比,能挖掘出更多的关联规则,并且只需要付出略微多一点的计算量。(错)
在运用决策树分析时,应避免发生“过度拟合”的现象。(对)
一元线性回归通常采用“残差”来评价回归效果的好坏,对于同一个数据集合,残差越大则该数据的线性拟合度越低。(对)
三、计算与实际操作题(本大题共5题,90分,请任选3题作答,如果全做,将取前3题计分)
数据预处理、聚类分析与智慧运营(本题30分)
(1).请阅读附件1,补全缺失的信用等级,将结果填入下表(每答对1个给1分,答错不给分,共10分)
客户ID
信用等级
5917
四星级
5915
四星级
5914
五星级金卡vip
5912
五星级金卡vip
5911
四星级
5908
五星级金卡vip
5916
四星级
5913
四星级
5910
5五星级银卡vip
5909
三星级
(2).请阅读附件1,画出属性“网龄”与属性“前三月平均DOU”的二维分布图,找出最为显著的两个离群点,答出这些离群点的用户ID,并将删除离群点后的二维分布图贴在下面。(本小题10分)
属性“网龄”与属性“前三月平均DOU”的二维分布图中最为显著的两个离群点,如下
将删除离群点后的二维分布图如下:
(3).删除离群点后,运用K均值聚类方法,按照属性“网龄”与属性“前三月平均DOU”,将用户聚成3个簇,将每个簇的中心填入下表,并回答表中的问题。(提示:聚类前需进行数据预处理,本小题10分)
类别1
类别2
类别3
网龄
19
160
35
前三月平均DOU
1530935.729
15362.4719
448686.7799
完成网龄与前三月平均DOU的聚类分析后,您对如何提升当地用户的DOU有什么建议?
网龄在160个月左右的用户(类别2)占总用户数的90%左右,而这部分用户的平均DOU是三个类别中最低的。所以要提升当地用户的DOU,应该对类别2的用户实行流量套餐优惠,促进用户对DOU的使用,达到DOU提升的目的。
决策树分析与客户流失预测(本题30分)
(1).请阅读附件1,以属性“是否流失”为因变量构造一棵深度为2的CHAID树,将树的截图贴在下方。
(2).请阅读附件1,以属性“是否流失”为因变量构造一棵深度为3的CHAID树,将树的截图贴在下方。
(3).上述两棵树,哪棵更好?请简单说明您的理由。
深度为2的CHAID树
分类
已观测
已预测
0
1
正确百分比
0
29701
249
99.2%
1
303
4939
94.2%
总计百分比
85.3%
14.7%
98.4%
增长方法:CHAID
因变量列表:是否流失
深度为3的CHAID树
分类
已观测
已预测
0
1
正确百分比
0
29847
103
99.7%
1
252
4990
95.
文档评论(0)