個人郵件之 雙層垃圾郵件過濾方法 .pptVIP

個人郵件之 雙層垃圾郵件過濾方法 .ppt

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
個人郵件之 雙層垃圾郵件過濾方法

植基於個人郵件之 雙層垃圾郵件過濾方法 (研究計畫簡報-TWISC) 組別:隱私與資安管理 指導教授:鄧惟中 教授 研究生:鄧維侖 2007年9月26日 * Outline 研究背景與動機 研究目的 雙層式垃圾郵件過濾架構 目前研究進度 實驗數據 未來實驗計畫 * 研究背景與動機 現今的垃圾郵件過濾技術仍可能誤判對使用者而言重要的正常郵件 使用者需要檢查被判斷為垃圾郵件的列表, 以確定不會錯殺重要的郵件 即使把個人郵件加入過濾器訓練,每封郵件仍然只有一個分數 把門檻值提高會造成垃圾郵件的辨識率下降,把門檻值降低又會造成正常郵件的誤判率上升 * 研究目的 開發一個正常郵件過濾(White Mail Filtering)機制,並與現行垃圾郵件過濾器串聯,以解決現有垃圾郵件過濾器的缺點 透過雙層過濾器的兩個門檻值相互配合 可以同時提高垃圾郵件辨識率與降低正常郵件誤判率 可以確保誤判的正常郵件並非使用者平時接收的內容,也就是可能非重要信件 * 雙層式垃圾郵件過濾架構圖 Spam Mail Folder Mail White List White Rules Mail folder Match Input Match Spam Mail Filter Not in White List Spam Mail Not Spam Mail Suspect Mail Input White Mail Filter * 目前研究進度 使用中文斷詞的過濾方式(TFIDF)作為前端White Mail Filter的判斷方式。 初步實驗結果顯示使用中文斷詞的過濾方式(TFIDF)下,對中文信件可成功達到降低誤判為垃圾郵件的情形。 * 正常郵件過濾器運作流程 * 使用MIME Parser對郵件做解碼動作 以權重大小表示斷詞的重要性,權重的大小是以詞頻為基礎來定義 選用蔡志浩的MMSEG,作為過濾器的斷詞模組 將不必要的HTML tag,半形、全形等等的符號移除 取出與關鍵字吻合的斷詞來計算,參考斷詞詞庫計算出權重,將新郵件轉為與向量庫維度相同之新郵件向量 新郵件先經過解碼、斷詞與前處理的步驟 實驗數據 * S (only) S+WMF 正常郵件總數 45封 垃圾郵件總數 97封 False Negative 17封 17封 False Positive 28封 2封 False Negative Rate 17.53% 17.53% False Positive Rate 62.22% 4.44% 實驗平台:使用Postfix作為MTA 垃圾郵件過濾器:SpamAssassin(內建貝氏學習的訓練機制) 實驗時間:2007/6/26 ~ 2007/7/1 正常郵件訓練總數:149封 垃圾郵件訓練總數:2020封 實驗數據(Keep Training White Mail Filter) * S (only) S+WMF S+WMF(train) 正常郵件總數 28封 垃圾郵件總數 39封 False Negative 2封 4封 4封 False Positive 3封 3封 0封 False Negative Rate 5.128 % 10.256 % 10.256 % False Positive Rate 10.714 % 10.714 % 0 % 實驗平台:使用Postfix作為MTA 垃圾郵件過濾器:SpamAssassin(內建貝氏學習的訓練機制) 實驗時間:2007/8/28 ~ 2007/8/31 正常郵件訓練總數:80封 垃圾郵件訓練總數:2109封 實驗結論 相較於變化多端的垃圾郵件,收件匣的內容確實更適合建立正常特徵規則 實驗證明了正常郵件過濾器只需少量訓練樣本就能有很好的效果,同時也確實有達到降低誤判率的期望。 * 未來實驗計畫 透過實驗數據,求得雙層過濾器其嚴格度門檻值之最佳搭配。 增加英文斷詞功能以擴大過濾之適用範圍,並與現有中文斷詞結合,以產生更完整之評分。 * END * * * * *

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档