- 1、本文档共56页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
序列挖掘—数据源的形式(续) 操作系统及其系统进程调用是评价系统安全性的一个重要方面。通过对正常调用序列的学习可以预测随后发生的系统调用序列、发现异常的调用。因此序列挖掘是从系统调用等操作系统审计数据中发现有用模式的一个理想的技术。表6-3给出了一个系统调用数据表示意,它是利用数据挖掘技术进行操作系统安全性审计的常用数据源。 序列挖掘—数据源的形式(续) 表6-3系统进程调用数据示例 进程号(Pro_id) 调用时间(Call_time) 调用号(Call_id) 744 744 1069 9 1069 744 1069 9 -1 04:01:10:30 04:01:10:31 04:01:10:32 04:01:10:34 04:01:10:35 04:01:10:38 04:01:10:39 04:01:10:40 23 14 4 24 5 81 62 16 表6-4系统调用序列数据表示例 进程号(Pro_id) 调用序列(Call_sequence) 744 1069 9 (23,14,81) (14,24,16) (4,5,62) 序列模式挖掘的一般步骤 序列模式五阶段分别是排序、大项集、转换、序列及选最大阶段。 1. 排序阶段 对数据库进行排序(Sort),结果将原始的数据库转换成序列数据库(比较实际可能需要其他的预处理手段来辅助进行)。如,交易数据库,客户号(Cust_id)和交易时间(trans-time)排序,通过对同一客户的事务进行合并可得对应的序列数据库。 2. 大项集阶段 该阶段要找出所有频繁项集(即大项集)组成的集合L,也同步得到所有大1-序列组成的集合,即{l | l ?L}。表6-2顾客序列数据库中,假设支持数为2,则大项集分别是(30),(40),(70),(40),(70)和(90)。实际操作中,常将大项集映射成连续的整数。上面大项集映射成表6-6对应的整数。映射目的是为处理的方便和高效。 Large Itemsets Mapped To (30) (40) (70) (40,70) (90) 1 2 3 4 5 序列模式挖掘的一般步骤(续) 3. 转换阶段 在寻找序列模式的过程中,要不断进行检测一个给定的大序列集合是否包含于一个客户序列中。 表6-7给出了表6-2数据库经过转换后的数据库。如,在对ID号为2的客户序列进行转换的时候,交易(10,20)被剔除了,因为它并没有包含任何大项集;交易(40,60,70)则被大项集的集合{(40),(70),(40,70)}代替。 4. 序列阶段 利用转换后的数据库寻找频繁的序列,即大序列(Large Sequence)。 5. 选最大阶段 在大序列集中找出最长序列(Maximal Sequences)。 Large Itemsets Mapped To (30) (40) (70) (40,70) (90) 1 2 3 4 5 时间序列及其应用 时间序列预测的常用方法 基于ARMA模型的序列匹配方法 基于离散傅立叶变换的时间序列相似性查找 基于规范变换的查找方法 序列挖掘及其基本方法 AprioriAll 算法 AprioriSome 算法 GSP算法 第六章 时间序列和序列模式挖掘 内容提要 AprioriAll算法 AprioriAll算法源于频繁集算法Apriori,它把Apriori的基本思想扩展到序列挖掘中,也是多遍扫描数据库的算法。 在每一遍扫描中都利用前一遍的大序列来产生候选序列,然后在完成遍历整个数据库后测试它们的支持度。 在第一遍扫描中,利用大项目集阶段的输出来初始化大1-序列的集合。 在每次遍历中,从一个由大序列组成的种子集开始,利用这个种子集,可以产生新的潜在的大序列。 在第一次遍历前,所有在大项集阶段得到的大1-序列组成了种子集。 AprioriAll算法 表6-2顾客序列表示例 1. AprioriAll算法描述 算法6-1 AprioriAll算法 输入:大项集阶段转换后的序列数据库DT 输出:所有最长序列 (1) L1={large 1-sequences};// 大项集阶段得到的结果 (2) FOR(k=2;Lk-1 ? ?;k++) DO BEGIN (3) Ck=aprioriALL_generate(Lk-1); // Ck是从Lk-1中产生的新候选者 (4) FOR each customer-sequence c in DT DO //对于在数据库中的每一个顾客序列c (5)
您可能关注的文档
- 排除重复2蚕姑娘幻灯片.ppt
- 数据库课件第十章数据库恢复技术幻灯片.ppt
- 实践第十一章实践幻灯片.ppt
- 排除重复2春雨的色彩精品课件一幻灯片.ppt
- 数据库课件第十章数据库新技术幻灯片.ppt
- 实践第十章实践幻灯片.ppt
- 排除重复2匆匆精品课件一幻灯片.ppt
- 数据库课件第四章关系数据库标准语言SQL幻灯片.ppt
- 数据库课件第四章数据库安全性幻灯片.ppt
- 实践第四章实践幻灯片.ppt
- 云南师范大学附属中学2025届高三下学期月考(七)理综答案 .pdf
- 高一英语教学期末工作总结范文.docx
- 八年级上册数学教学总结怎么写.docx
- 二十四节气——秋分——2025年8月3日——乙未年六月十九日 .pdf
- 事业单位必考题公共基础知识2025题库及答案解析(851-860题)-综合应用能.pdf
- 事业单位必考题公共基础知识2025题库及答案解析(891-900题)-综合应用能.pdf
- 云南省2025年特岗教师招考试卷(小学英语科目二) .pdf
- 云南省丽江市成考专升本2025-2026学年生态学基础模拟试卷及答案.pdf
- 云南省2025年特岗教师招考试卷(小学英语科目二) .pdf
- 云南省丽江市成考专升本2025-2026学年生态学基础模拟练习题三附答案.pdf
最近下载
- 中医养生预防脑血管疾病的措施(3).pptx
- 教育部2024年专项任务项目(高校辅导员研究)申请评审书《增强高校辅导员与学生谈心谈话的针对性和实效性研究》.docx VIP
- YBJ-PS03-2004埋地无压预制混凝土排水圆形管管基及接口.pdf
- 家校社协同育人教联体典型案例(幼小中).doc
- 智慧教育双师课堂解决方案.pdf
- DL∕T 1949-2018 -火力发电厂热工自动化系统电磁干扰防护技术导则.pdf
- 2023云南昆明空港投资开发集团招聘7人考前自测高频考点模拟试题(共500题)含答案详解.docx
- 营销三大法宝-销售带动配合-PPT课件.ppt
- 人教版本历史七下第3课(开元盛世)课件3.ppt
- 2025考研英语一真题及答案.pdf
文档评论(0)