科技论文发表基于web数据挖掘技术的研究.doc

科技论文发表基于web数据挖掘技术的研究.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
科技论文发表基于web数据挖掘技术的研究

科技论文发表基于Web数据挖掘技术的研究 互联网的不断得到发展,网页中数据量迅速增加,如何从这么多的网页信息中获取有用的数据已经成功数据挖掘领域的一个热门的研究方向,数据挖掘是近几年来迅速发展的进行信息获取的一个重要渠道, 尤其大量运用与社会和科学的方方面面。一般来说数据挖掘主要利用计算机和相关的信息技术,把有用的数据从海量的网页数据中挖掘出来,为我们从事其他方面的运用。基于网页的数据挖掘是一门技术的综合研究方向,它的思想是从Internet中提取网页中的大量数据,也就是从网页的数据结构中发现隐含的模式[1]。 1 数据挖掘的特点 1)数据挖掘的特点之一就是半结构化,这个特别算是网页数据挖掘的最大特点[2],因为网页上的数据分布没有规律,非常复杂,没有任何固定的模式能够很好的描述它的特点。因此称它为半结构化。 2)数据挖掘的特点之二是网页中的数据比较分散,这些网页数据存在世界各地的很多服务器上,因此是一种数据源分散的结构。 3) 数据挖掘的特点之三是数据库的结构存在不同,因为互联网上的一个网站可以存为一个数据源,它们的结构互不相关,异构性特点比较强,由它们构成的数据库自然而然也属于一种异构的形式。 4) 数据挖掘的特点之四是动态性强,网站上的数据资源是不断更新变化的,找不到固定的形式,网站与网站的直接访问的链接是形式变化的。 2 数据挖掘过程 基于Web的数据挖掘与传统的数据仓库相比,网页上的信息是半结构化的或非结构化、不容易识别、变化的,正因为它这些特点,要想在网页上开展直接数据挖掘,可谓很费功夫,就要借助一些方法来预处理数据,才能方便挖掘。通常进行网页数据挖掘可分为的如图1所示的四个步奏。 1)数据源的获取,在网站的各个页面中获取数据信息,组成目标数据信息源,再从这些信息源中找到相关有用的数据。这个过程的目的就是从像网页文档、email、网页记录、新闻信息、各种网站数据库中挖掘出有用的数据。 2)把获取的数据进行加工处理,网页数据挖掘的好坏直接与数据源的好坏相关,如果获取的数据源有大量的垃圾数据,对数据挖掘过程有很大的影响,因此挖掘之前需要对数据源进行筛选,消除那些杂音数据,保证数据源的纯正,然后将这些已经过滤的数据再次装入数据库中进行下一步的分析。 3)对数据经过提纯处理后,进入模式寻找阶段,这需要各种挖掘算法分析、挖掘大量的、隐藏的、潜在的、可被利用的数据模式。在挖掘的过程中,经常会使用到一些相关的方法,例如聚类分析法、关联规则发等挖掘方法。 4)在对数据模式发现后,需要对这些模式进行挖掘,也就是知识的转换过程,把提取到的模式再进行信息转化,转化为我们能够理解,识别的知识,为我们的决策需要提供有用的参考源。 3 数据挖掘分类 在进行数据挖掘的时候,针对不同的数据结构,会采用不同的挖掘方法,这样才能有效、合理挖掘到有用的数据,不能笼统采用一种方法,这样挖掘的数据相应的杂音数据就比较多。大体上,我们把数据挖掘分为三种类型,即:网页使用挖掘、网页结构挖掘、网页内容挖 [3],如图2所示。 4 数据挖掘相关技术 互联网的发展促进网页数据挖掘得到越来越多的应用,于是针对网页挖掘的各种方法和技术不断出现,就这些相关的技术[4],下面分别一一介绍。 4.1 网页内容挖掘 4.1.1 网页文档挖掘 网页文档挖掘就是分析网站上存在的数量很多的网页文档采用聚类、分类、关联处理等多种方法进行分析,然后根据网页文档进行预测。在Internet的文档数据一般都是以html格式的网页文档出现,要采集这些网页文档数据,然后把这些文档数据变成记录的形式存贮进数据库,把这些记录用来表示文档内容特征,为后续的分析提供保障。表示文档的特征形式通常使用文档特征向量形式, 由于文档的特征表示中存在一些缺陷,文档的特征向量的维数非常高,对数据分析不利,因此一个好特征表示主要集中在特征集的选取方面,特征集需求好,对数据进行分析的时间就相对少,如果选取不好,将要花很长时间去等待。因此特征集选取好坏成为数据分析额关键。一旦特征集选择好后,就可以采用聚类、分类、数据关联等方法来进行提取信息,然后对这些提取的信息进行评价分析,找到有用的信息,为后续的决策工作提供指导。 4.1.2 挖掘网页多媒体 在进行网页多媒体挖掘主要关注的是特征提取,这点网页内容挖掘不一样。在网页多媒体挖掘中提取的多媒体特征主要关注视频或者图片的颜色特征、键值、形式以及它们的URL,最后根据这些特征进行数据挖掘。nbsp;nbsp; 4.2挖掘网页结构 挖掘网站空间中的知识,不仅关注包含在各个网页内容中的信息数据,同时也关注网站与网站之间的网页结构和超级链接结构,这也是非常重要的。进行网页结构挖掘主要分析网页结构之间的特征,利用聚类和分类来分析页面结构特征,找到特征模式。 4.3 网页使用挖掘 网

文档评论(0)

ailuojue1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档