- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2-5数据挖掘过程及实例〔客户流失预测〕;第一步:需求分析。明确挖掘目标和要求。
第二步:数据理解。了解目前的数据状况。
第三步:数据准备:选择挖掘的数据并进行预处理
第四步:挖掘算法与挖掘软件的选择。
第五步:构建硬件、软件、数据平台,确定相关参数,并具体挖掘。
第六步:结果展示与评价、导出。;数据清理筛选;第一步:需求分析。明确挖掘目标和要求。
方法:
1〕调查、访谈。
2〕头脑风暴。头脑风暴会议应在充分的材料准备根底上,在轻松的环境中进行,以充分发挥与会人员的才智。
任务:
1〕数据挖掘应完成哪一类任务:关联、分类、回归、聚类?
2〕如何展示和应用挖掘结果。
3〕挖掘系统部署后,对业务有哪些提升?;客户流失预测需求分析:
开展一个新客户的本钱远远高于保持一个老客户。所以,保持老客户就十分重要。
一个电信企业在运营过程中,不可防止地要流失局部客户。所以,可以建立客户流失模型。从大量的与客户相关的数据中,挖掘出流失客户的共同特征。从而对初显流失客户特征的客户采取必要的措施。
客户的特征:自然特征+行为特征;第二步:数据理解。即了解目前的数据状况。
1.需要的数据及含义
2.数据的分布情况:
需要的数据都分布在哪些系统〔数据库、表〕中,有多少数据。
3.数据的质量:
1〕关键数据是否能够获取。
2〕缺失值或无效值数量如何?
3〕是否有足够的历史数据。;客户流失预测数据理解:
预测需要的数据:客户数据、通话详单、短信详单、投诉数据、交费数据等。
客户数据:;通话详单如下:;投诉数据:;第三步:数据准备。按要求准备好需要挖掘的数据。
按照挖掘要求,通过抽取数据,转换,聚集以及数据预处理技术,将数据整理成适合挖掘的形式。〔宽表〕
数据预处理的主要内容
1〕数据归约:在保持数据完整性和有效性的前提下,将庞大的数据量压缩到可接受的范围。
2〕数据清??:填充空缺值,识别孤立点,消除噪音。
3〕离散化处理:有些数据的属性呈连续值,不利于数据挖掘。应对这些连续值,采用不同粒度进行离散化采样处理;
4〕概念提升:有些属性值域很大〔可能的取值数量很多〕,对于过于密集的离散值,用更概括的值取代。例如年龄属性可以概括为青年、中年、老年等。;将详单数据聚集为月度数据:;数据采样:
客户流失模型研究的目标是为了挽留客户。研究价值低的客户得不偿失。因此,应选择满足一定价值标准的客户。例如,积分或历史消费数据应大于某个标准。
客户“类标签”确实定:
在电信客户流失中,主要有三类流失:
1〕主动流失:客户客户主动去营业厅要求销户
2〕变动流失:因欠费,被电信公司关闭账户。
3〕自然流失:因各种原因停止使用号码,有时可能还有少量通话。
前两类由系统自动标记,第三类形成比较复杂,可通过消费额的变化,予以标记。;数据清理:
1〕客户根本数据中的学历、职业等字段中有大量的缺值,而且正确性难以保证,可以去掉,不参加建模。
2〕有些客户的通话数据可能存在异常,可以删除这些客户。
3〕有些属性之间相关性较大,可进一步选择。;时间窗口选择:
客户流失与时间有关。因此,需要选择时间窗口。例如,时间窗口为3,就是取3个月的通话等相关数据。
;时间窗口的叠加:
为了提高模型的适应性,可使用不同的时间窗口的数据进行叠加。;第四步:挖掘算法与挖掘软件的选择。
主要考虑因素:
1〕算法的有效性:即算法对要解决的问题是否有效。数据集的特征是千变万化的。目前,每个算法都对数据集有潜在假设。没有一种算法在所有类型的数据集上都表现良好。因此,数据集的特征应与算法的假设比较吻合。
2〕模型的可理解性:模型可解释,可增加人们对模型的信任度。例如,用决策树算法生成的模型易于解释,而神经网络算法生成的模型那么难以解释。
3〕性能与计算复杂度。
4〕处理连续数据或离散数据的能力、处理高维数据的能力等。
常见的算法都可对局部参数进行调整。
文档评论(0)