- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
垃圾邮件样本示例干扰文字
主要内容 测评背景及目的 测评相关说明 测评结果分析 总结与讨论 (一) 测评背景及目的 测评背景 垃圾邮件的泛滥 规模上的增长 技术上的提高 经济损失的加剧 反垃圾技术不断更新 目前各种技术各有优缺点 技术的更新始终难以跟上垃圾邮件的步伐 切实控制垃圾邮件泛滥需要多领域的知识和技术的融合 测评目的 为致力于垃圾邮件处理的国内外研究组织提供一个交流的平台; 以测评的形式促进垃圾邮件过滤技术的交流和探讨; 提供标准数据集与评测工具,并以不同形式的评测来综合评价过滤器性能,与国际接轨。 (二)测评相关说明 测评相关说明 测评邮件集 测评方式 测评工具 测评标准 测评邮件集 本次凭此数据集主要分为两个部分,一部分为公开数据集(Public Corpus)共70000封提供给测评参与单位作为在线测试的数据邮件集;另一部分为不公开数据集(Private Corpus)共99046封作为测评主办单位主要评测标准。 两个数据集都是由数据文件(Data)和索引文件(Index)组成,索引文件形式如下: ham ./Data/001/001 spam ./Data/OO1/002 其中Private Corpus的索引文件不提供判断类别。 测评邮件集 表1 Corpus Statistic 测评邮件集 正常邮件来源于: (1)项目组人员自发提供的实际私人邮件; (2)公开邮件群发送的实际邮件; (3)按照实际私人邮件和公开邮件的主题、词频、附件等分布特征,通过Internet抓取到邮件内容合成的电子邮件。 垃圾邮件全部来源于本实验室实际运行邮件服务器上所截获以及用户报告的垃圾邮件,经过部分去重并与其他公开垃圾邮件样本集进行对照后挑选得到。 垃圾邮件样本示例 退信变种—以退信形式伪造正常邮件 回信变种—以回信形式伪造正常邮件 动画变形—以GIF的动画形式来躲避过滤 文字变形—影响过滤器的特征词提取 干扰文字—改变邮件的词频分布特征 细微差别—避开基于校验码的过滤器 图片变形—OCR也无能为力 文字变图—图片垃圾是spammers的利器 垃圾邮件样本示例—退信变种 垃圾邮件样本示例—回信变种 垃圾邮件样本示例—动画变形 垃圾邮件样本示例—文字变形(1) 垃圾邮件样本示例—文字变形(2) 垃圾邮件样本示例—文字变形(3) Viagra的多种拼写: 共600,426,974,379,824,381,952种拼写方式! 垃圾邮件样本示例—干扰文字 垃圾邮件样本示例—细小差别(1) 垃圾邮件样本示例—细小差别(2) 垃圾邮件样本示例—图片变形(1) 垃圾邮件样本示例—图片变形(2) 垃圾邮件样本示例—文字变图 邮件的全部内容----图片 测评相关说明 测评邮件集 测评方式 测评工具 测评标准 测评方式 本次垃圾邮件评测分两阶段进行: 第一阶段为离线型测试,即参赛方使用07年数据 作为训练集,以08年的不公开数据集作为测试集,提交过滤结果进行测评; 第二阶段为在线型测试,以08年公开集作为测试数据,提供带类别信息的索引文件,共提供三种评测方式,分别是: 立即反馈(Immediate feedback) 延时反馈(Delayed feedback) 动态学习(Active learning) 测评方式 立即反馈(Immediate feedback),模拟理想化下的过滤器所有的邮件都能得到立即反馈。 延时反馈(Delayed feedback),对邮件的评判延迟反馈,模拟现实中接收邮件的滞后反馈。 动态学习( Active learning ),给定一定的配额(quota),在配额消耗完后不再提供反馈。目地在于测试过滤器如何最有效的利用反馈信息。本次测试要求参赛方最多使用2000个配额。 测评相关说明 测评邮件集 测评方式 测评工具 测评标准 评测工具 评测工具依照参考TREC会议标准完成,要求参赛者提供Linux脚本程序,或提交符合格式的答案文本,以便评测工具可以正确运行用户提交的过滤器。 评测工具运行时将提供训练、立即和延时反馈判别三种模式,参赛方可根据自己过滤器的特点来运行评测。 测评相关说明 测评邮件集 测评方式 测评工具 测评标准 测评标准 本次测评根据测评工具得出的二元判别结果(垃圾邮件还是正常邮件)为原始数据,根据人为判断后得出的结果(index文件中的判别)为答案,计算出过滤器的误过滤hm%、sm%,根据hm%、sm%得到三个指标: 平均误过滤lam%、R
文档评论(0)