- 1、本文档共53页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
垃圾邮件样本示例文字变形
主要内容 测评背景与目的 数据集生成方法 数据集统计特征 过滤评测标准 测评结果分析 总结与讨论 测评背景与目的 测评背景 垃圾邮件的泛滥 规模上的增长 技术上的提高 反垃圾技术不断更新 目前各种技术各有优缺点 技术的更新始终没有跟上垃圾邮件的“进步” 有效控制垃圾邮件泛滥需要借鉴多领域的知识,更需要来自不同领域、掌握不同技术的泛垃圾人员的交流 相对于英文,中文垃圾邮件过滤在技术、语料库等方面有较大差距。 测评目的 希望为致力于垃圾邮件处理的国内外研究组织提供一个交流的平台 ; 提高国内垃圾邮件过滤系统的性能; 丰富一个以中文为主的邮件数据集; 提供一个标准的开放垃圾邮件测试工具。 数据集的生成 生成的原则 真实反映实际系统所接收的邮件流 内容特征 到达过程 适当加工以适应评测要求 去除垃圾邮件中的冗余部分 合成部分正常邮件 其它(去除隐私等) 数据集生成--邮件流内容特征 语言 中文 其他 编码方式 Base64 7Bit etc. 附件类型 gif, doc... 邮件长度 数据集生成--到达过程 不同时段的密度分布(基于校园网的邮件日志) 垃圾/正常邮件的出现频率 大约3:1 垃圾邮件来源 真实垃圾邮件 校园网垃圾邮件过滤系统过滤下来的垃圾邮件 用户报告垃圾邮件 涵盖90%以上的垃圾邮件 数据集加工—去除垃圾邮件冗余(1) 超过60%的垃圾邮件为重复发送 数据集加工—去除垃圾邮件冗余(2) 去除方法 基于模糊指纹 仅有细小差别的邮件视为相同 适当保留少量冗余(2~5封) 去除结果 Public数据集 样本大小:234,592 挑选结果:45,000 Private数据集 样本大小:317,714 挑选结果:55,506 初始候选集: 2,000,000 数据集加工—合成正常邮件 使用真实邮件的头信息 从Web上抓取邮件内容 多类别、多编码、以中文为主 自动生成附件 长度分布与实际情况吻合 考虑与垃圾邮件特征词的适当交叉 加入部分实际正常邮件(由志愿者贡献) 数据集加工—后续处理 去除(可能的)隐私信息 IP地址、服务器名、用户名等 选择典型时段 选择标准 邮件数量 到达频次 按典型时段中垃圾/正常邮件的分布修改垃圾/正常邮件头中的时间字段。 重新命名 封装打包 数据集生成结果 数据集主要分为两个部分,一部分为公开数据集(Public Corpus)共60000封( 45,000 垃圾邮件+15,000正常邮件)提供给测评参与单位作为训练、测试或者添加到本地的垃圾邮件库;另一部分为不公开数据集(Private Corpus)共75506( 55,506 垃圾邮件+20,000正常邮件)封作为测评主办单位主要评测标准。 两个数据集都是由数据文件(data)和索引文件(index)组成 ,Private数据集的索引文件则不公开 垃圾邮件样本示例 文字变形—影响过滤器的特征词提取 干扰文字—改变邮件的词频分布特征 细微差别—避开基于校验码的过滤器 图片变形—OCR也无能为力 文字变图—图片垃圾是spammers的利器 垃圾邮件样本示例—文字变形(1) 垃圾邮件样本示例—文字变形(2) 垃圾邮件样本示例—文字变形(3) Viagra的多种拼写: 共600,426,974,379,824,381,952种拼写方式! 垃圾邮件样本示例—干扰文字 垃圾邮件样本示例—细小差别(1) 垃圾邮件样本示例—细小差别(2) 垃圾邮件样本示例—图片变形(1) 垃圾邮件样本示例—图片变形(2) 垃圾邮件样本示例—文字变图 邮件的全部内容----图片 数据集统计特征 测评邮件集相关数据统计(1) 测评邮件集相关数据统计(2) 邮件中转次数统计 测评邮件集相关数据统计(3) 邮件类型统计 测评邮件集相关数据统计(4) 邮件附件类型统计 评测标准 测评标准 本次测评根据测评工具得出的二元判别结果(垃圾邮件还是正常邮件)为原始数据,根据人为判断后得出的结果(index文件中的判别)为答案,计算出过滤器的误过滤hm%、sm%,根据hm%、sm%得到三个指标: 平均误过滤lam%、ROCA、h=.1 测评类型 离线型 先用Public集训练,再用Private集测试 在线型(反馈) 边测试Private集边对过滤器进行训练 测评相关公式 hm%:正常邮件错误判断为垃圾邮件的误过滤率 sm%:垃圾邮件错误判断为正常邮件的误过滤率 (1-ROCA)%:以hm%为横坐标,以sm%为纵坐标,取不同的阈值t时,做ROC曲线,求ROC曲线上方面积。 h=.1:hm%=0.1时,sm%的值 三个指标数值越小,表示垃圾邮件过滤系统性能越好;最后将根据(
您可能关注的文档
- 国家级试验教学示范中心 海南大学.doc
- 国文 民族国中.doc
- 国文1下随堂主题式测验卷.doc
- 国文学力备忘录.doc
- 国民中小学学生健康检查 辅仁大学.doc
- 国民小学一二上学期.doc
- 国民经济核算知识问答三.doc
- 国民中小学九年一贯课程英语教学手册.doc
- 国标泵站施工及验收规范.doc
- 国网20KV变压器通用技术规范.doc
- 中国国家标准 GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- 《GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计》.pdf
- 中国国家标准 GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- 《GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置》.pdf
- 中国国家标准 GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- GB/T 17889.4-2024梯子 第4部分:铰链梯.pdf
- 《GB/T 17889.4-2024梯子 第4部分:铰链梯》.pdf
文档评论(0)