4G驻留比大数据分析方法论研究与总结.docx

4G驻留比大数据分析方法论研究与总结.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4G驻留比大数据分析方法论研究与总结

4G驻留比大数据分析方法论研究与总结 淮安无线维护中心 张毅阳、张柏林、刘瑞 摘要: 随着电信的4G网络逐步向乡镇农村推进,网络的覆盖范围逐步扩大,用户规模不断增长,如何精确的分析网络性能,直观的体现用户感知,成为当前网络分析工作的重点和难点。本文通过对用户话单和使用终端数据的深度挖掘,结合“大数据”分析的相关方法,利用成熟的SQL SERVER数据库系统,实现直接针对用户使用的区域、流量时长等行为的分析,重点针对4G用户切3G的情况进行分析定位,真实反映出网络和用户使用方面的问题,为网优和规划工作提供有效的参考。 关键词:用户话单、终端类型、大数据分析、4G流量时长驻留比、高值用户 1、分析背景: 随着4G网络覆盖范围的扩大以及用户增长,4G网络和3G网络覆盖水平日益接近,通过对4G用户切换到3G网络这一行为的分析和定位,可以有效的反映4G网络的真实覆盖水平和用户感知。 常规的分析手段,以网管性能数据为基础,站在网络侧的角度,以扇区为最小维度,得出的结论可以反映网络的基本覆盖情况,但往往和用户真实感知有一定的差距。本文通过对用户话单数据进行深度挖掘,分析结论直接反映用户的使用行为,更能贴近用户感知。 2、分析方法: 考虑到数据规模庞大,关联关系较为复杂,本案例部分采用大数据分析的理论基本方法进行分析。 以上是一般大数据挖掘流程,本案例中,针对分析对象的具体情况,按照以下简化流程进行: 2.1 需求分析: 结合本案例的具体目标,主要需求针对目标用户从4G切换到3G的现象进行仔细的分析和定位,满足这一需求,主要需要以下几个方面的数据: 2.2 数据准备: 通过以上分析,需要的数据主要有:话单数据、扇区数据、用户终端信息数据。其中话单数据和用户终端信息数据由本地企信提供,扇区数据从“爱网优”平台提取,此类分析对实时性要求不高,为了避免接口上的繁琐,所有数据统一采用标准文本文件的格式提供。因话单数据非常庞大,为了更有效率的处理,采用SQL SERVER数据库进行数据的处理和计算。文本文件导入后,数据表结构如下: 话单表: COLUMN_NAMETYPE_NAMELENGTH定义SERV_IDnvarchar100SERV_IDBILLING_NBRnvarchar40用户号码IMSInvarchar30用户IMSIPPP_IDnvarchar40PPP_IDBSIDnvarchar40占用扇区BSIDMSCnvarchar20占用扇区MSCLACnvarchar20占用扇区LACCELL_IDnvarchar20占用扇区CISTART_DATEdatetime16开始时间END_DATEdatetime16结束时间RECV_AMOUNTnumeric12反向流量SEND_AMOUNTnumeric12前向流量SERVICE_TYPEbigint8服务类型MDNnvarchar40MDNPIDnvarchar40PIDRATING_GROUPnvarchar40RATING_GROUPshichangbigint8时长 终端类型表: COLUMN_NAMETYPE_NAMELENGTH定义SERV_IDnvarchar100SERV_IDTRMNL_MDL_TPnvarchar100用户号码TRMNL_BRANDnvarchar100终端厂家TRMNL_MDL_NMnvarchar100终端型号数据表导入后,还需要对数据进行一些初步的处理,剔除一些无用噪声数据,根据开始结束时间计算出时长数据填入数据表中等等工作均在这一步骤完成。 噪声数据主要有数据类型错误、超高流量的测试用户、异地漫游数据等; 时长数据用结束时间和开始时间之间的时长得出。 2.3 建立模型: 承接上文的需求,本次分析的考虑建立以下的主要模型: 2.4 数据挖掘: 挖掘过程是按照上文的分析模型,通过编写sql语句,通过数据库计算输出最终结果,相应的语句主要有以下几种: 以上语句,主要基于几种思路编写: 2.4.1 对原始话单数据表按照用户号码进行汇总分析,得出全网每个用户的流量和时长,由此得出每个用户的3G和4G使用情况; 2.4.2 对原始话单数据和终端类型进行关联分析,得出全网不同终端的流量和时长数据,由此得出不同终端类型的流量时长占比情况; 2.4.3 对原始话单数据表和基站扇区表进行关联分析,得出不同扇区的3G和4G流量,3G流量高的扇区,认为是4G网络存在覆盖问题的区域; 2.4.4 对原始话单中使用4G终端,但没有4G流量的

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档