垃圾邮件样本示例文字变形.ppt

下载文档 降价啦

11
0
约5.71千字
约 53页
2018-03-14 发布于天津
举报
版权申诉
保障服务

垃圾邮件样本示例文字变形.ppt

1、本文档共53页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

垃圾邮件样本示例文字变形

主要内容测评背景与目的数据集生成方法数据集统计特征过滤评测标准测评结果分析总结与讨论测评背景与目的测评背景垃圾邮件的泛滥规模上的增长技术上的提高反垃圾技术不断更新目前各种技术各有优缺点技术的更新始终没有跟上垃圾邮件的“进步” 有效控制垃圾邮件泛滥需要借鉴多领域的知识，更需要来自不同领域、掌握不同技术的泛垃圾人员的交流相对于英文，中文垃圾邮件过滤在技术、语料库等方面有较大差距。测评目的希望为致力于垃圾邮件处理的国内外研究组织提供一个交流的平台；提高国内垃圾邮件过滤系统的性能；丰富一个以中文为主的邮件数据集；提供一个标准的开放垃圾邮件测试工具。数据集的生成生成的原则真实反映实际系统所接收的邮件流内容特征到达过程适当加工以适应评测要求去除垃圾邮件中的冗余部分合成部分正常邮件其它（去除隐私等）数据集生成--邮件流内容特征语言中文其他编码方式 Base64 7Bit etc. 附件类型 gif, doc... 邮件长度数据集生成--到达过程不同时段的密度分布（基于校园网的邮件日志）垃圾/正常邮件的出现频率大约3:1 垃圾邮件来源真实垃圾邮件校园网垃圾邮件过滤系统过滤下来的垃圾邮件用户报告垃圾邮件涵盖90%以上的垃圾邮件数据集加工—去除垃圾邮件冗余（1）超过60%的垃圾邮件为重复发送数据集加工—去除垃圾邮件冗余（2）去除方法基于模糊指纹仅有细小差别的邮件视为相同适当保留少量冗余（2～5封）去除结果 Public数据集样本大小：234,592 挑选结果：45,000 Private数据集样本大小：317,714 挑选结果：55,506 初始候选集： 2,000,000 数据集加工—合成正常邮件使用真实邮件的头信息从Web上抓取邮件内容多类别、多编码、以中文为主自动生成附件长度分布与实际情况吻合考虑与垃圾邮件特征词的适当交叉加入部分实际正常邮件（由志愿者贡献）数据集加工—后续处理去除（可能的）隐私信息 IP地址、服务器名、用户名等选择典型时段选择标准邮件数量到达频次按典型时段中垃圾/正常邮件的分布修改垃圾/正常邮件头中的时间字段。重新命名封装打包数据集生成结果数据集主要分为两个部分，一部分为公开数据集（Public Corpus）共60000封（ 45,000 垃圾邮件＋15,000正常邮件）提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库；另一部分为不公开数据集（Private Corpus）共75506（ 55,506 垃圾邮件＋20,000正常邮件）封作为测评主办单位主要评测标准。两个数据集都是由数据文件（data）和索引文件（index）组成，Private数据集的索引文件则不公开垃圾邮件样本示例文字变形—影响过滤器的特征词提取干扰文字—改变邮件的词频分布特征细微差别—避开基于校验码的过滤器图片变形—OCR也无能为力文字变图—图片垃圾是spammers的利器垃圾邮件样本示例—文字变形（1）垃圾邮件样本示例—文字变形（2）垃圾邮件样本示例—文字变形（3） Viagra的多种拼写：共600,426,974,379,824,381,952种拼写方式！垃圾邮件样本示例—干扰文字垃圾邮件样本示例—细小差别(1) 垃圾邮件样本示例—细小差别(2) 垃圾邮件样本示例—图片变形(1) 垃圾邮件样本示例—图片变形(2) 垃圾邮件样本示例—文字变图邮件的全部内容----图片数据集统计特征测评邮件集相关数据统计（1）测评邮件集相关数据统计（2）邮件中转次数统计测评邮件集相关数据统计（3）邮件类型统计测评邮件集相关数据统计（4）邮件附件类型统计评测标准测评标准本次测评根据测评工具得出的二元判别结果（垃圾邮件还是正常邮件）为原始数据，根据人为判断后得出的结果（index文件中的判别）为答案，计算出过滤器的误过滤hm%、sm%，根据hm%、sm%得到三个指标：平均误过滤lam%、ROCA、h=.1 测评类型离线型先用Public集训练，再用Private集测试在线型（反馈）边测试Private集边对过滤器进行训练测评相关公式 hm%：正常邮件错误判断为垃圾邮件的误过滤率 sm%：垃圾邮件错误判断为正常邮件的误过滤率（1－ROCA）％：以hm%为横坐标，以sm%为纵坐标，取不同的阈值t时，做ROC曲线，求ROC曲线上方面积。 h=.1：hm%=0.1时，sm%的值三个指标数值越小，表示垃圾邮件过滤系统性能越好；最后将根据（