Web内容挖掘在垃圾邮件过滤中的应用分析.docx

Web内容挖掘在垃圾邮件过滤中的应用分析.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web内容挖掘在垃圾邮件过滤中的应用分析

Web内容挖掘在垃圾邮件过滤中的应用分析摘要:以前我们学习的数据挖掘技术,主要面对的是以结构化的数据为主的关系数据库,事务数据库和数据仓库。随着数据处理工具、先进数据库技术以及万维网技术的迅速发展,大量的形式各异的复杂类型的数据不断涌现,Web数据就是其中一种。万维网目前是一个巨大的、分布广泛的和全球性的信息服务中心,它涉及新闻、广告、消费信息,以及Web页面的访问与使用信息,这为数据挖掘提供了丰富的资源。Web挖掘由此诞生,其利用数据挖掘技术,从web文档以及服务中发现信息、知识。通常把Web挖掘分为三类:Web内容挖掘、Web结构挖掘、Web日志挖掘,其中Web的内容挖掘方法被广泛应用于电子商务、金融行业、电子邮件中的垃圾邮件过滤。关键词:数据挖掘;Web挖掘;web内容挖掘;电子邮件;垃圾邮件;过滤前言:以前我们主要研究学习的是以结构化的数据为主的关系数据库,事务数据库和数据仓库。随着数据处理工具、先进数据库技术以及万维网技术的迅速发展,大量的形式各异的复杂类型的数据不断涌现,Web数据就是其中一种。Web挖掘利用数据挖掘技术,从web文档以及服务中发现信息、知识。通常把Web挖掘分为三类:Web内容挖掘、Web结构挖掘、Web日志挖掘,其中Web的内容挖掘方法被广泛应用于电子商务、金融行业、电子邮件中的垃圾邮件过滤。正文:Web内容挖掘在垃圾邮件过滤中的应用分析近年来,随着数据处理工具、先进数据库技术以及万维网技术的迅速发展,大量的形式各异的复杂型数据不断涌现,如何处理这些复杂类型的数据是数据挖掘技术的一大重要课题,而Web数据就是复杂数据中的一种。伴随Internet的迅速普及、电子商务发展迅速,网络积累的数据越来越多。电子邮件以其快速、便捷的优势成为了现代通信的主要手段。但人们也惊异的发现,他们的收件箱中有为数不少的垃圾邮件。基于垃圾邮件的特征,可以用Web内容挖掘的方法将邮件分类与过滤。Web内容挖掘不仅可以解决垃圾邮件的过滤问题,而且可以广泛地应用于电子政务和电子商务。本文就Web数据挖掘中的web内容挖掘以及其在垃圾邮件过滤中的具体应用进行详尽的分析与说明。一、Web挖掘Web挖掘是一项综合技术,涉及网络、数据挖掘、计算机语言学、信息学等多个领域。不同研究者从自身的领域出发,对Web挖掘的含义有着不同的理解,项目开发也各有其侧开发有着项目重点。例如,有些计算机语言学家认为,Web文档为自然语言例如理解提供了丰富的语料,可以从中学习词语的意义,以进行词义辨析或确定词语所属的概念。我们从更为一般的角度出发,对Web挖掘作如下定义:Web挖掘是指从大量Web文档的集合C中发现隐含的、有用的模式P的过程。如果隐含文档发现将C看作输入,将p看作输出,那么Web挖掘的过程就是从输入到输出的一个映射ξ: C→P。Web挖掘的作用:通过收集、加工和处理涉及消费者消费行为的大量信息。确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体未来的消费行为,然后对所识别出来的消费群体进行特定内容的定向营销,节省成本,提高效率,从而为企业带来更多的利润。Web挖掘典型的作用包括优化web网站的结构,根据用户的喜好设计个性化的网站,留住老顾客、吸引新顾客,并降低运营成本以及提高电子商务安全等。Web挖掘的分类:Web挖掘处理的对象是文本、图形和图像等半结构化、非结构化的数据。这些数据分布在Web文档、Web服务器的日志、用户cookies等数据源中。因此可以分为 Web内容挖掘、Web结构挖掘、Web日志挖掘三类,如图1。图1 Web挖掘的分类图在以上三类Web挖掘中,Web的内容挖掘方法被广泛运用和易于理解。下面就Web内容挖掘展开说明。二、Web内容挖掘Web内容挖掘是指对Web页面内容进行挖掘,从Web文档的内容信息中抽取知识。Web内容挖掘是一种基于网页内容的Web挖掘,是从大量Web数据中发现信息、抽取有用知识的过程。Web内容挖掘是Web挖掘的一个重要方面,它包括:从www上提取信息的有哪些信誉好的足球投注网站引擎;从Web上提取信息的智能有哪些信誉好的足球投注网站工具;Web信息结构化;HTML页面内容挖掘。三、Web内容挖掘的分析Web内容挖掘主要有两种方式:①直接挖掘文档的内容;②根据有哪些信誉好的足球投注网站引擎的查询结果进行挖掘。按所挖掘内容的类型划分,Web挖掘分为Web文本挖掘和多媒体文本挖掘。Web文本挖掘:Web文本挖掘是以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术,从大量的文本数据中发现和提取隐含的、事先未知的知识,最终形成用户可理解的、有价值的信息和知识的过程。内容挖掘多为基于文本信息的挖掘。按照文本挖掘的对象可把文本挖掘分为:基于单文档的数据挖掘和基于文档集的数据挖掘。基于单文档的数据挖掘对文档的分析并不涉及其它

文档评论(0)

haihang2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档