- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基干通信大数据挖掘网络业务类型划分方法探究
基干通信大数据挖掘网络业务类型划分方法探究 在传统的Gn数据解析过程中,业务类型里“未知服务”的占比通常在70%以上。为了提高解析结果的分析价值,结合数据分析和数据挖掘技术对DNS解析流量字段进行细分,该设计方案在最大化利用原始数据的同时,能从多维度细分用户网络业务,优化结果可以为用户画像、用户标签、用户群体特征等分析应用提供有力支持
数据挖掘 数据解析 网络业务类型划分 聚类算法
1 引言
21世纪信息和通信技术高速发展,技术的进步给人们的日常生活带来了诸多便利。通讯是社会交往中的重要纽带,推动着数字信息的发展。通信行业的大数据应用,能够优化移动通信网络,开拓更丰富的服务业务,为移动用户提供更精准、更便捷的服务
Gn数据是Gn口原始码流解析得到的数据,主要反映用户使用各类数据业务的详细情况。在传统的Gn数据解析过程中,流量类型里“未识别TCP流量业务”、“未识别UDP流量业务”和“DNS解析流量业务”等类型均被划为未知服务。这样的计算模型会导致解析结果里未知服务的占比很高
本文针对原始Gn数据,提出了一种新的网络业务分类方法:利用大数据并行计算模式解析DNS业务里的URL,解析结果通过挖掘算法(基于密度的聚类算法)模型处理,以确立新的网络业务类型
2 技术介绍
2.1 大数据处理步骤
大数据的飞速发展已经影响到了各行各业,其中信息、互联网和通信行业受到的影响最大。大数据的到来恰逢通信行业的转型过渡阶段,给这个行业注入了新鲜的血液
大数据处理方法通常为四步,分别是原始数据的采集、数据导入和预处理、数据的统计和分析以及数据挖掘。下面将按照这四个步骤的顺序进行阐述
(1)数据采集
数据的采集阶段是指用数据库来接收以Web、App等形式传送的数据,在大数据的采集过程中,最主要的问题是处理高并发数,同一时间?c可能会有上万条申请操作。而采集阶段通常采用的优化方式是在这些数据库之间进行分时分片管理和负载均衡
(2)数据导入和预处理
数据导入指的是将原始数据导入到分布式存储集群,并且在导入过程中,对数据做去除噪声点、筛选特定条件等清洗工作。导入和预处理过程中面临的主要效率瓶颈是网络带宽和磁盘IO
(3)数据统计和分析
大数据场景下的统计与分析主要通过分布式计算集群来对数据进行分析和分类汇总等,在这一阶段,最常用的两个计算框架是Hadoop和Spark。统计与分析遇到的主要问题是,分析时所涉及的数据量通常很大,其对系统资源会造成极大的占用
(4)数据挖掘
数据挖掘阶段是一个知识发现的过程,一般没有预先设定好的主题。比较典型的算法有用于聚类分析的K-means算法、用于统计学习的SVM算法和用于分类的Na?ve-Bayes算法。该过程的特点主要是用于挖掘的算法一般比较复杂,考虑到系统资源的开销,需要选择合适的计算框架
2.2 基于聚点密度和距离的高效聚类算法
把一个数据集分割成不同的类或簇,使得同簇内数据对象的相似性尽可能大,不同簇中数据对象的差异性也尽可能地大,通常采用聚类算法。从传统的聚类分析方法来看,在进行聚类之前都需要先确定要聚类的类别数目,然而在现实运营数据的分析过程中,聚类的类别结果通常是未知的,一般要经过多次实验来获得相对合适的聚类数目。考虑到本文中要分析的数据是多维度的结构化数据,且聚类结果不需要人工干预,可以参考Alex Rodriguez和Alessandro Laio提出的新的聚类算法,下面对此聚类算法做简要介绍
该算法假设所确定的类簇中心点是由一些局部密度相对其较低的点所环绕,并且这些点与其他高局部密度点(其他类簇中心点)的距离都比较大。首先定义两个值:局部密度ρi以及到其他高局部密度点的距离δi
ρi=Σj X(dij-dc) `(1)
(2)
公式中dc是一个临界变量值,是一个预先设定的参数。从公式(1)和(2)可以得出,ρi相当于和点i的距离差值小于dc的点的个数。由于该算法只对ρi的相对值敏感,所以面对大数据量时,为了算法的健壮性,对dc的选择最好使得平均每个点的邻居数为所有点数量的1%~2%
δi=minj:ρjρi (dij) (3)
根据公式(3),δi用来表示点i和点j直接的距离,其中ρjρi。对于ρ值最大的点,设置其δi=maxj (dij)
局部密度ρi和据其他中心点距离δi的值均很大的点被认为是类簇的中心。局部密度较小但是δi较大的点则是异常点。在确定了类簇中心之后,非中心点属于其距离最近的类簇中心所代表的类簇
图1是以ρ为横坐标、以δ为纵坐标的决策图。可以看到,1号和10号两个点的ρi和δi都比较大,可以作为聚类焦点。11、12、13三个点的δi比较大,但是ρi
文档评论(0)