网站大量收购闲置独家精品文档,联系QQ:2885784924

Probability-BasedSpamFiltering.pptVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Probability-BasedSpamFiltering.ppt

Weike Pan, etc. SVM based Spam Filtering Probability-Based Spam Filtering 参赛人:欧德宁 报告人:陈军 山东大学 April 13, 2008 OUTLINE 基本思路 方法 结果 遇到的问题以及解决办法 实验软硬件环境 方法 基于开源反垃圾邮件软件jASEN: ,插件机制,每个插件对应一种过滤技术或者一条规则,可以方便地自己添加或者删除。 SVM 分类器: libSVM .tw/~cjlin/libsvm/ 自己写的中文分词软件 系统框架 分数计算方法 使用2种文本分类技术,10种基于规则的技术,共12个插件。 每个插件返回一个分数作为概率[0~1],计算复合概率。设定优先级,当前面几个的结果足够高到确信为垃圾邮件,则不再往下判断。 实验结果 主题的特征全取,正文从后往前取最多30个 subject和信体权重比为2:1 正负样本不平衡对结果的影响:反复测试得到最好的比例(推荐:spam:ham=5:3) SVM 30000维 对2007公开数据集的实验结果 在07公开数据上进行的实验曾得到了非常好的结果(10次交叉验证法,每次取公开数据中的1500:2500 (ham:spam)做测试集,剩下的13500:22500 (ham:spam)做训练集) 遇到的问题及解决办法 乱码和解析错误 删除多余空行 减少90%以上的乱码。 From、to的地址格式错误引起,较少量。用一个正确的地址代替 剩余随即判断 SVM降维 因为中英文混合处理,维数非常高,必须进行降维处理。 只取出现次数大于1的特征 英文提词干,其他限制长度 遇到的问题及解决办法(续) 第2阶段速度问题: 在于过滤器由java实现,每次命令要重新加载/退出虚拟机,重新初始化过滤器,速度慢。 采用二元分词,减少磁盘IO次数以提高速度。 2-4s/封 08年的数据难度有所增加 主要是ham的干扰性比较强,比如谈论股票,跳蚤市场的交易。故精度会下降。 实验软硬件环境 联想1.8G cpu,512RAM;win xp 联想双cpu,2.1Ghz, 2G 内存;FC7 Dell2400 PIII900Mhz*2,2GRAM,200GHD;RedHat9.0 Dell2650 xeon2.0G*2, 2GRAM,280GHD; RedHat9.0 谢谢 * * 黑 名 单 贝 叶 斯 SVM KNN … 特征选择 域 名 反 向 解 析 信 头 信 体 垃圾邮件过滤模型 思路:现有的分类器;特征选择;ham/spam数量及比例 基本思路 使用的规则插件列表 White Noise Detector (HTMLConcealmentScanner) Image Misuse Detector (ImageDominanceScanner) Bug Detector (TagSourceCgiScanner) Port Scanner (TagSourcePortScanner) Phishing Detector (TagFalseAnchorScanner) Shouting Detector (AnomalousCharacterScanner) Fraud Detector (SenderAddressValidationScanner) Forgery Detector (FromAddressValidationScanner) Email Fingerprint Scanner (HeuristicScanner) Keyword Scanner (KeywordScanner)

文档评论(0)

381697660 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档