- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
李剑博士,教授,博士生导师网络空间安全学院lijian@bupt.edu.cnJanuary23,2025第6章贝叶斯和SVM分类算法的安全应用实践6-1基于贝叶斯和SVM分类算法的垃圾邮件过滤
本实践介绍本实践内容主要是分别采用机器学习里面两个经典算法即贝叶斯和SVM分类算法实现对垃圾邮件的过滤功能。
1.实践目的本实践的目的如下:(1)熟悉垃圾邮件过滤的一般性流程,理解分类器的基本原理。(2)设计简易的垃圾邮件分类器,完成程序设计。(3)采用不同的分类器,对性能结果进行比较。
1.实践目的垃圾邮件过滤是一种用于检测和过滤无用邮件的技术,同时也是文档分类技术的一个典型应用。随着电子邮件的普及,垃圾邮件成为了一个严重的问题,给用户带来了许多不便和安全风险。如图所示为电子邮箱中的垃圾邮件。
1.实践目的甚至有些垃圾邮件里包含着一些很明显的诈骗信息,如图所示。
1.实践目的常见方法:1.关键词过滤:2.黑名单过滤3.白名单过滤4.基于规则的过滤5.机器学习过滤
2.实验流程(1)数据准备(2)构建字典(3)将邮件文本提取成特征矩阵(4)对朴素贝叶斯分类器和支持向量机进行训练(5)使用测试集得到预测结果(6)对模型性能进行对比评估
3.实践步骤第1步:导入第三方库。首先导入了Python中处理数据科学、机器学习和统计相关的几个重要库和模块。下面将按照导入第三方库的顺序进行详细介绍:
3.实践步骤第2步:定义构建字典函数。定义了一个名为create_word_dictionary的函数,该函数接收一个参数train_directory,该参数是一个包含电子邮件文件的目录的路径。函数的目的是从这个目录中的所有电子邮件文件中提取单词,创建一个单词字典,该字典包含最常见的3000个非数字、非单字母的单词及其出现次数。
3.实践步骤第3步:定义提取特征函数。函数的目的是从指定目录中的每个邮件文件中提取特征,并将这些特征表示为一个特征矩阵,其中每行代表一个邮件文件的特征向量,每列代表一个单词在单词字典中的索引,矩阵中的值表示该单词在邮件文件中出现的次数。
3.实践步骤第4步:指定训练集目录并创建单词字典。第5步:定义训练标签。第6步:提取训练集特征。第7步:初始化线性支持向量机模型。第8步:初始化朴素贝叶斯模型。第9步:训练支持向量机模型。第10步:训练朴素贝叶斯模型。第11步:指定测试集。第12步:定义测试集标签。第13步:使用SVM模型进行预测。第14步:使用朴素贝叶斯模型进行预测。第15步:打印混淆矩阵。
4.实践效果结果:上面是SVM,下面的朴素贝叶斯。
4.实践效果两个模型在性能展现上各有千秋:(1)SVM在捕捉目标类别(如垃圾邮件)方面表现优异。(2)朴素贝叶斯则在减少非目标类别被错误分类为目标的情况上更为出色。(3)因此,选择哪个模型应根据实际应用场景的需求来定:若强调垃圾邮件的识别率,SVM是更佳选择;若优先考虑减少误报,则朴素贝叶斯模型更为适合。
小结熟悉基于贝叶斯分类算法的垃圾邮件过滤方法。熟悉基于SVM分类算法的垃圾邮件过滤方法。
祝同学们学习进步!致谢
您可能关注的文档
- 《汽车电器与电子控制技术》课件汇总 1.概述 ---7.汽车电器辅助设备.pptx
- 《汽车电器与电子控制技术》课件汇总 8.汽车发动机管理系统 ---14.智能网联汽车电子控制技术.pptx
- 《汽车电器与电子控制技术》课件全套 王冬良 1.概述 ---14.智能网联汽车电子控制技术.pptx
- 《人工智能安全》教学大纲.doc
- 人工智能安全:原理与实践 参考代码2-1:基于生成对抗网络.pdf
- 人工智能安全:原理与实践 课件 第1章 人工智能安全概述(1.1人工智能安全简介).pptx
- 人工智能安全:原理与实践 课件 第1章 人工智能安全概述(1.2教材讲授和学习方法).pptx
- 人工智能安全:原理与实践 课件 第2章 生成对抗网络的安全应用(2.1生成对抗网络原理简介).pptx
- 人工智能安全:原理与实践 课件 第2章 生成对抗网络的安全应用(2.2基于生成对抗网络的sin曲线样本模拟-实践).pptx
- 人工智能安全:原理与实践 课件 第2章 生成对抗网络的安全应用(2.3基于对抗性攻击无数据替代训练的模型窃取-实践).pptx
文档评论(0)