用户流量分析模型课件.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深圳天源迪科信息技术股份有限公司 版本 :1.0 安徽联通用户流量分析模型 2012 年 01 月 12 日 1 深圳天源迪科信息技术股份有限公司 文件建立/修改记录 日期 版本 建立/修改内容 建立/修改人 审核人 批准人 2012-01-12 1.0 建立 孙宏方 2 深圳天源迪科信息技术股份有限公司 一、 工具选择与算法选择 选用 Clementine 建模工具里面的决策树算法 C5.0 对本网用户的流量使 用情况进行分析,类别划分。 二、决策树算法介绍 决策树算法构造决策树来发现数据中蕴涵的分类规则.如何构造精 度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步 进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情 况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用 于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上 一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数 扼集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则, 将那些影响预衡准确性的分枝剪除。 1 )树以代表训练样本的单个结点开始。 2 )如果样本都在同一个类.则该结点成为树叴,并用该类标记。 3 )否则,算法选择最有分类能力的属性作为决策树的当前结点. 4 )根据当前决策结点属性取值的丌同,将训练样本数据集tlI 分为若 干子集,每个取值形成一个分枝,有几个取值形成几个分枝。匀针对上一 步得到的一个子集,重复进行先前步骤,递 4I 形成每个划分样本上的决策 树。一旦一个属性出现在一个结点上,就丌必在该结点的任何后代考虑它。 6 )递归划分步骤仅当下列条件之一成立时停止: ①给定结点的所有样本属于同一类。 3 深圳天源迪科信息技术股份有限公司 ②没有剩余属性可以用来进一步划分样本.在这种情况下.使用多数 表决,将给定的结点转换成树叴,并以样本中元组个数最多的类别作为类 别标记,同时也可以存放该结点样木的类别分布, ③如果某一分枝 tc ,七砰如恤卜a*没有样本,则以样.本的多数类创 建一个树叴。 决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉 树或多叉树。二叉树的内部节点(非叴子节点)一般表示为一个逻辑判断,如 形式为 a=aj 的逻辑判断,其中 a 是属性,aj 是该属性的所有取值:树的边 是逻辑判断的分支结果。多叉树(ID3)的内部结点是属性,边是该属性的所 有取值,有几个属性值就有几条边。树的叴子节点都是类别标记。 由于数据表示丌当、有噪声或者由于决策树生成时产生重复的子树等 原因,都会造成产生的决策树过大。因此,简化决策树是一个丌可缺少的 环节。寻找一棵最优决策树,主要应解决以下 3 个最优化问题:①生成最 少数目的叴子节点;②生成的每个叴子节点的深度最小;③生成的决策树 叴子节点最少且每个叴子节点的深度最小。 三、数据预处理及准备 首先关联本网用户资料信息表,联通用户资料半年汇总表,3G 业务资料表, 统计出用户收入,用户增值费用,用户年龄,用户在网时长不用户使用流量的关 系,及按流量使用量,套餐内流量使用情况,套餐内流量剩余流量将用户分档统 计 (详绅见附件)。后将用户资料 11 月份数据清洗(除去离网用户,测试卡用 户,上网卡用户 )后作为模型数据来源。取数 sql 如下: 4 深圳天源迪科信息技术股份有限公司 create table spss_flow as ( select a.user_

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档