广西移动《大数据挖掘与智慧运营实战培训》强化学习阶段测试题(A卷).doc

广西移动《大数据挖掘与智慧运营实战培训》强化学习阶段测试题(A卷).doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

广西移动《大数据挖掘与智慧运营实战培训》强化学习阶段测试题

姓名所在部门所属课题

考试说明:本考试题共四大题,满分150分,包含两个附件,附件1“客户流失分析训练集.xls”和附件2“客户流失预测检验集.xls”,考试结束请将本文档和附件2一并交回。

一、选择题(单选题,每题4分,共20分,请选出您认为最正确的一个答案)

1、以下哪个不属于数据挖掘的范畴(D)

A.分类分析 B.回归分析

C.聚类分析 D.数据复制

2、以下哪一条是中国移动在未来大数据运营发展中的明显优势(A)

A.拥有海量的数据资源

B.在大数据领域拥有全世界最多的知识产权

C.拥有最丰富的大数据运营经验

D.拥有全世界最先进的大数据人才队伍

3、下图展示了两条ROC曲线,请问若希望TruePositiveRate不小于0.9,哪条曲线代表的分类器效果较好(B)

A.M1 B.M2 C.两者一样 D.需计算具体的AUC

4、以下哪个算法不是分类算法(C)

A.ID3决策树 B.K近邻算法 C.Apriori算法 D.逻辑回归

5、下图为决策树预测客户是否流失的分类表(1表示流失),请问对于检验样本来说误判率为多少(A)

A.23.9% B.8.9% C.76.1% D.98.3%

二、判断题(每题4分,共20分)

在分类算法中,命中率和误判率之和一般等于1。(错)

数据挖掘的重要意义之一在于它能构造出人发现不了的规律。(对)

Apriori算法和穷举关联分析相比,能挖掘出更多的关联规则,并且只需要付出略微多一点的计算量。(错)

在运用决策树分析时,应避免发生“过度拟合”的现象。(对)

一元线性回归通常采用“残差”来评价回归效果的好坏,对于同一个数据集合,残差越大则该数据的线性拟合度越低。(对)

三、计算与实际操作题(本大题共5题,90分,请任选3题作答,如果全做,将取前3题计分)

数据预处理、聚类分析与智慧运营(本题30分)

(1).请阅读附件1,补全缺失的信用等级,将结果填入下表(每答对1个给1分,答错不给分,共10分)

客户ID

信用等级

5917

四星级

5915

四星级

5914

五星级金卡vip

5912

五星级金卡vip

5911

四星级

5908

五星级金卡vip

5916

四星级

5913

四星级

5910

5五星级银卡vip

5909

三星级

(2).请阅读附件1,画出属性“网龄”与属性“前三月平均DOU”的二维分布图,找出最为显著的两个离群点,答出这些离群点的用户ID,并将删除离群点后的二维分布图贴在下面。(本小题10分)

属性“网龄”与属性“前三月平均DOU”的二维分布图中最为显著的两个离群点,如下

将删除离群点后的二维分布图如下:

(3).删除离群点后,运用K均值聚类方法,按照属性“网龄”与属性“前三月平均DOU”,将用户聚成3个簇,将每个簇的中心填入下表,并回答表中的问题。(提示:聚类前需进行数据预处理,本小题10分)

类别1

类别2

类别3

网龄

19

160

35

前三月平均DOU

1530935.729

15362.4719

448686.7799

完成网龄与前三月平均DOU的聚类分析后,您对如何提升当地用户的DOU有什么建议?

网龄在160个月左右的用户(类别2)占总用户数的90%左右,而这部分用户的平均DOU是三个类别中最低的。所以要提升当地用户的DOU,应该对类别2的用户实行流量套餐优惠,促进用户对DOU的使用,达到DOU提升的目的。

决策树分析与客户流失预测(本题30分)

(1).请阅读附件1,以属性“是否流失”为因变量构造一棵深度为2的CHAID树,将树的截图贴在下方。

(2).请阅读附件1,以属性“是否流失”为因变量构造一棵深度为3的CHAID树,将树的截图贴在下方。

(3).上述两棵树,哪棵更好?请简单说明您的理由。

深度为2的CHAID树

分类

已观测

已预测

0

1

正确百分比

0

29701

249

99.2%

1

303

4939

94.2%

总计百分比

85.3%

14.7%

98.4%

增长方法:CHAID

因变量列表:是否流失

深度为3的CHAID树

分类

已观测

已预测

0

1

正确百分比

0

29847

103

99.7%

1

252

4990

95.

文档评论(0)

友情 + 关注
实名认证
内容提供者

好文件大家都可以分享

1亿VIP精品文档

相关文档