kdd99数据集详解-数据挖掘.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
KDD是数据挖掘与知识发现(Data?Mining?and?Knowledge?Discovery)的简称,KDD?CUP是由ACM(Association?for?Computing?Machiner)的 SIGKDD(Special?Interest?Group?on?Knowledge?Discovery?and?Data?Mining)组织的年度竞赛。竞赛主页在这里。下面是历届KDDCUP的题目:KDD-Cup 2008, Breast cancerKDD-Cup 2007, Consumer recommendationsKDD-Cup 2006, Pulmonary embolisms detection from image dataKDD-Cup 2005, Internet user search query categorizationKDD-Cup 2004, Particle physics; plus Protein homology predictionKDD-Cup 2003, Network mining and usage log analysisKDD-Cup 2002, BioMed document; plus Gene role classificationKDD-Cup 2001, Molecular bioactivity; plus Protein locale prediction.KDD-Cup 2000, Online retailer website clickstream analysisKDD-Cup 1999, Computer network intrusion detectionKDD-Cup 1998, Direct marketing for profit optimizationKDD-Cup 1997, Direct marketing for lift curve optimization”KDD?CUP?99?dataset?”就是KDD竞赛在1999年举行时采用的数据集。从这里下载KDD99数据集。1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目。林肯实验室建立了模拟美国空军局域网的一个网络环境,收集了9周时间的 TCPdump(*) 网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段,使它就像一个真实的网络环境。这些TCPdump采集的原始数据被分为两个部分:7周时间的训练数据 (**) 大概包含5,000,000多个网络连接记录,剩下的2周时间的测试数据大概包含2,000,000个网络连接记录。一个网络连接定义为在某个时间内从开始到结束的TCP数据包序列,并且在这段时间内,数据在预定义的协议下(如TCP、UDP)从源IP地址到目的IP地址的传递。每个网络连接被标记为正常(normal)或异常(attack),异常类型被细分为4大类共39种攻击类型,其中22种攻击类型出现在训练集中,另有17种未知攻击类型出现在测试集中。4种异常类型分别是:DOS,?denial-of-service.?拒绝服务攻击,例如ping-of-death,?syn?flood,?smurf等;R2L,?unauthorized?access?from?a?remote?machine?to?a?local?machine.?来自远程主机的未授权访问,例如guessing?password;U2R,?unauthorized?access?to?local?superuser?privileges?by?a?local?unpivileged?user.?未授权的本地超级用户特权访问,例如buffer?overflow?attacks;PROBING,?surveillance?and?probing,?端口监视或扫描,例如port-scan,?ping-sweep等。随后来自哥伦比亚大学的Sal?Stolfo 教授和来自北卡罗莱纳州立大学的 Wenke?Lee?教授采用数据挖掘等技术对以上的数据集进行特征分析和数据预处理,形成了一个新的数据集。该数据集用于1999年举行的KDD?CUP竞赛中,成为著名的KDD99数据集。虽然年代有些久远,但KDD99数据集仍然是网络入侵检测领域的事实Benckmark,为基于计算智能的网络入侵检测研究奠定基础。数据特征描述KDD99数据集中每个连接(*)用41个特征来描述:2, tcp, smtp, SF, 1684, 363, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.0

您可能关注的文档

文档评论(0)

js1180 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档