- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深圳天源迪科信息技术股份有限公司
版本 :1.0
安徽联通用户流量分析模型
2012 年 01 月 12 日
1
深圳天源迪科信息技术股份有限公司
文件建立/修改记录
日期 版本 建立/修改内容 建立/修改人 审核人 批准人
2012-01-12 1.0 建立 孙宏方
2
深圳天源迪科信息技术股份有限公司
一、 工具选择与算法选择
选用 Clementine 建模工具里面的决策树算法 C5.0 对本网用户的流量使
用情况进行分析,类别划分。
二、决策树算法介绍
决策树算法构造决策树来发现数据中蕴涵的分类规则.如何构造精
度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步
进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情
况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用
于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上
一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数
扼集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,
将那些影响预衡准确性的分枝剪除。
1 )树以代表训练样本的单个结点开始。
2 )如果样本都在同一个类.则该结点成为树叴,并用该类标记。
3 )否则,算法选择最有分类能力的属性作为决策树的当前结点.
4 )根据当前决策结点属性取值的丌同,将训练样本数据集tlI 分为若
干子集,每个取值形成一个分枝,有几个取值形成几个分枝。匀针对上一
步得到的一个子集,重复进行先前步骤,递 4I 形成每个划分样本上的决策
树。一旦一个属性出现在一个结点上,就丌必在该结点的任何后代考虑它。
6 )递归划分步骤仅当下列条件之一成立时停止:
①给定结点的所有样本属于同一类。
3
深圳天源迪科信息技术股份有限公司
②没有剩余属性可以用来进一步划分样本.在这种情况下.使用多数
表决,将给定的结点转换成树叴,并以样本中元组个数最多的类别作为类
别标记,同时也可以存放该结点样木的类别分布,
③如果某一分枝 tc ,七砰如恤卜a*没有样本,则以样.本的多数类创
建一个树叴。
决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉
树或多叉树。二叉树的内部节点(非叴子节点)一般表示为一个逻辑判断,如
形式为 a=aj 的逻辑判断,其中 a 是属性,aj 是该属性的所有取值:树的边
是逻辑判断的分支结果。多叉树(ID3)的内部结点是属性,边是该属性的所
有取值,有几个属性值就有几条边。树的叴子节点都是类别标记。
由于数据表示丌当、有噪声或者由于决策树生成时产生重复的子树等
原因,都会造成产生的决策树过大。因此,简化决策树是一个丌可缺少的
环节。寻找一棵最优决策树,主要应解决以下 3 个最优化问题:①生成最
少数目的叴子节点;②生成的每个叴子节点的深度最小;③生成的决策树
叴子节点最少且每个叴子节点的深度最小。
三、数据预处理及准备
首先关联本网用户资料信息表,联通用户资料半年汇总表,3G 业务资料表,
统计出用户收入,用户增值费用,用户年龄,用户在网时长不用户使用流量的关
系,及按流量使用量,套餐内流量使用情况,套餐内流量剩余流量将用户分档统
计 (详绅见附件)。后将用户资料 11 月份数据清洗(除去离网用户,测试卡用
户,上网卡用户 )后作为模型数据来源。取数 sql 如下:
4
深圳天源迪科信息技术股份有限公司
create table spss_flow as (
select a.user_
文档评论(0)