- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HMM通信流量异常检测
基于HMM通信流量异常检测
摘 要:选用HMM在原模型的基础上针对算法下溢、概率转移矩阵过大、计算结果P(O|Ψ)值过小等问题分别进行优化。使用优化后的HMM对训练集进行训练,并根据训练结果,调整部分参数使模型正确率得到提高。实验结果证明HMM在通信流量时间序列异常检测方面效果更好。HMM作为异常检测的基本算法,因其不需要针对每种类型的异常点分别进行优化,从而降低了复杂度,且对未知异常值也有一定的检测能力。
关键词:异常检测; HMM; 时间序列
Abstract: The optimized HMM is used to train the training set, and some parameters are adjusted to improve the accuracy of the model according to the training results. The experimental results show that the accuracy of HMM is better than that of ARIMA model. As the basic algorithm of anomaly detection, HMM reduces the complexity because it does not need to optimize the exception point for each type, and also has certain detection ability for the unknown outliers. This paper uses distributed Euclidean distance algorithm, distributed ARIMA optimization model and distributed HMM optimization model to detect abnormal test set data. In order to compare the differences of distributed algorithms, a comparative experiment is designed and implemented.
Key words: anomaly detection; Hidden Markov Model; Time series
引言
一直以来,通信流量数据的分析是一个热门话题,很多网络管理人员都很注重通信流量的异常检测。在很多大公司以及企业中,主机的通信流量异常可直接作为检测主机通信故障的依据。因此,如何快速发现和定位主机通信流量中的异常成为时下的一个热门研究课题。近年来有些研究人员提出了一种新的主机通信流量异常检测方法,该方法的原理是通过一定的方法将时域流量信息转变到频域,并根据频域的特征来进行异常检测[1-2]。也有研究人员提出可以利用小波分析理论的结果来进行通信流量异常检测,实质上该结果为类异常检测的结果。但该理论有其局限性,因为使用的算法实现起来极其复杂,所以在处理海量数据实时计算方面效果不尽人意。除了域变换的方法,也有研究人员提出可以利用通信流量数据自相似性的特征来进行异常流量检测,根据流量的参数变化情况来判断该时刻是否出现异常。但是这种方法准确性不是很稳定,在网络繁忙且样本量大的时候检测结果较为准确,而当网络处于空闲时段时,由于流量的自相似性不强,其精度会有所下降[3]。
1 HMM模型及算法研究
应用HMM异常检测的一般步?E可以分为以下4点[4-5]:
(1)对数据进行标准化处理,可以使用Min-Max或者Z-Score标准化方法。
(2)构建HMM,初始化模型。
(3)反复训练确定模型参数以及阈值。
(4)检测测试集,给出分析检验结果。HMM异常检测步骤如图1所示。
在时间序列的异常检测中引入五元组的HMM,Ψ=(S,O,A,B,π)。异常检测中状态有2个值0或1,0为正常状态,1为异常状态。
其中:S为马尔科夫链中的状态数;O为观察值集合;A为状态转移矩阵;B为给定状态下观察值概率矩阵;π为初始化概率。
基于HMM的异常检测方法在对训练集数据学习时使用的是Baum-Welch算法和Viterbi算法,异常检测时使用的是前向算法。
1.1 数据预处理
本文使用的数据是主机通信流量数据,其中异常点均有标注。将数据存储于MySQL中,通信流量序列的每点之间的时间间隔为5 s,即在样本采集时每隔5 s采集一次通信流量值。主要内容是类似于(20151028142645,520 697)这样的键值
文档评论(0)