- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Hadoop与Spark构建安全数据分析检测平台
基于Hadoop和Spark构建可扩展的网络安全分析平台
山东大学 赵科军 葛连升 刘洋 秦丰林
挑战
网络安全检测数据量迅速增长
流量信息数据
系统日志
应用服务日志
…
机器学习技术广泛应用于安全分析检测
大量迭代计算
支持实时/半实时安全分析检测
现状
单机处理受限
自建集群
并行计算开发难度大,开发量
工程质量
业务可扩展性
集群可扩展性
现状-Hadoop
Hadoop集群
Hadoop是Apache基金会管理的一个分布式系统基础架构;
用户在不了解分布式底层实现细节的情况下,可以充分利用廉价的硬件平台开发分布式程序;
Hadoop拥有高可扩展性,高可用性,低廉应用成本等优点;
缺点:计算模型MapReduce 需要多次的读写磁盘,计算速度慢。
适合线下数据分析
基于Hadoop与Spark构建安全数据分析检测平台
Spark是UC Berkeley AMP lab开源的并行计算框架;
基于内存的计算,计算速度明显高于Map-Reduce模型;
Spark-Streaming - 流数据实时/半实时处理
MLlib 机器学习模块
GraphX 图计算模块
平台结构
基于Hadoop与Spark构建安全数据分析检测平台,整个系统的架构如图:
分析检测流程
平台基于HDFS中的离线数据使用Spark训练模型,然后将训练好的模型交给Spark Streaming进行分析检测。
分析检测流程
采用离线模型训练与在线分析检测结合的方法可以最大限度的利用大数据平台的高效计算能力,同时利用Spark streaming的特性保证数据检测的实时性。
实验结果与分析
实验环境
6台服务器:2颗 Xeon(R) E5-2407 V2 @2.4GHz CPU(4核),32GB内存
HDFS本身提供了可靠的冗余备份机制,所有服务器均不使用RAID配置,硬盘采用直接挂载的方式,提高I/O吞吐能力;
6台服务器安装在同一个机架中,服务器使用单块千兆网卡通过一台千兆交换机互联。
实验数据
采用山东大学济南六校区DNS查询日志作为本实验的测试数据。
使用Flume将2016年6月20日-2016年6月26日总共一周的DNS查询日志数据写入了安全平台的文件系统。该数据样本大小为 486GB,总共包含 33亿(3,357,813,618)条查询记录。
使用DNS查询频率特征提取作为主要的性能测试对象。
采用一天的DNS查询样本数据(81GB),包含186 545 201条查询数据。将集群计算节点的个数从1台逐渐累加到6台的规模,在不同的计算节点个数环境下计算样本中所有主机的查询频率。
集群对不同样本数据量的运行时间比较。将样本数据量从1 d的数据量逐步增加到一周的数据量,产生7个样本数据。集群采用6个计算节点,通过计算样本数据中每台主机的查询频率考察集群的运行性能:
总结
本文提出基于Hadoop和Spark计算框架构建一种低成本的可扩展性的大数据安全分析检测平台。
使用离线模型生成与在线检测相结合的方式对大规模网络数据进行分析,同时能够实现实时安全分析检测。
通过实验证明:基于Hadoop和Spark的大数据安全分析平台具有良好的可扩展性及高效处理能力,能够满足安全大数据的分析与检测要求。
下一阶段,将在该大数据安全分析平台基础上充分利用DNS日志和网络流量数据,在异构数据环境中开展实时僵尸网络检测分析的工作。
谢谢!
文档评论(0)