网站大量收购闲置独家精品文档,联系QQ:2885784924

基于Web的数据挖掘技术及访问路径模式的研究.doc

基于Web的数据挖掘技术及访问路径模式的研究.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Web的数据挖掘技术及访问路径模式的研究

基于Web的数据挖掘技术及访问路径模式的研究 摘要:给出了数据挖掘系统的体系结构,XML能为Wed)数据挖掘带来巨大的发展契机提出了在Web中发现大访问路径的算法,基于Wed)的数据挖掘可广泛用于银行、保险、电信商业等领域。 关键词:数据挖掘:关联规则;XML:大访问路径 数据挖掘( Data Mining)简称DM,亦称数据库中的知识发现,它是从大量数据中发现并提取隐藏在其中的,可信的、新颖的、有效的并能被人理解的模式的高级处理过程。数据挖掘能挖掘出隐藏在数据背后的知识,能提供有力的决策工具。它主要基于AI、机器学习、统计学等技术。高度自动化地分析企业的数据,作出归纳性的推理。数据挖掘的核心是:关联分析、序列模式分析、分类分析以及聚类分析四种。其中关联分析是最常用,也是最重要的一种。 Web作为目前Internet的主要信息发布渠道,已经显示出巨大的商业价值和应用潜力。Web上的数据以多种形式存在,没有特定的模型来描述,Web上的数据是半结构化数据。分析和掌握用户在访问Web站点里的行为是Web站点管理员的职责,因而在日志文件( Weblog)中记录的数据包括:访问客户的IP地址、访问时问、访问的页面、访问方式等。 因此,本文重点讨论了DM系统的体系结构,如何用模型来清晰地描述Wed)上的半结构化数据,这是数据挖掘能否成功的关键所在。在Web中挖掘用户访问路径的模式,发现频繁访问路径(即热门路径),从中挖掘潜在的模式,从而预测客户的行为,帮助企业的决策者调动整个市场策略,减少风险,作出正确的决策。 1 Data M ining系统的体系结构 DM系统不是人工智能、机器学习、统计等多项技术的简单组合,而是一个完整的整体,它还需要其它辅助技术的支持,才能完成数据采集预处理、数据分析、结果表达这一系列任务,最后将分析结果呈现在客户面前。 DM的数据分析过程包括四个步骤:数据准备( Data Preparation)、挖掘( Mining)、表述(Presentation)以及评价(Assess)。DM系统体系结构如图1所示。 在数据挖掘的核心部分中,关联分析规则模式是较重要的一种。它属于描述性模式,决策者只对满足一定的支持度和可信度的关联规则感兴趣。因此,为了发现有意义的关联规则,需要给定两个阑值:最小支持度和最小可信度。前者规定了关联规则必须满足的最小支持度;后者规定了关联规则必须满足的最小可信度。 在基于Wed)的数据挖掘技术中,人们根据关联规则识别欺诈,如电了通讯行业和信用卡公司、股票交易所和银行、商场根据关联规则计划进货的品种及摆放位置,关联规则还可用于药物检测及故障诊断等。 2基于Web的数据挖掘技术 面向web的数据挖掘比面向单个数据仓库中的数据挖掘要复杂得多,web上的数据是半结构化结构数据。如何用一个模型来清晰地描述web上的半结构化数据,是进行web数据挖掘的关键。现有的许多web站点上的信息,多用HTML来描述,因而只能在浏览器中提供数据的显示方式,不能真正做到准确、高效的挖掘数据。而XML是由W3C定义的一个新的标记语言,易于关系数据库中的属性一一对应,开发人员能够用XML的格式标记和交换数据。XML结构化的数据可以从商业规范和表现形式中分离出来。数据的集成、发送、处理和显示如图2所示。 XML文档对象模式(DOM)允许用脚本或其它编程语言处理数据,可以被利用来分离使用者观看数据的界面。XML还可以通过以简单开放扩展的方式描述结构化的数据,同时补充了HTM L,被广泛地用来描述使用者界面。HTML描述数据的外观,而XML描述数据本身。 XML能够使用不同来源的结构化数据很容易地结合在一起,因而使有哪些信誉好的足球投注网站多样的不兼容的数据库能够成为可能,从而能描述有哪些信誉好的足球投注网站集的Web页中的数据记录。因此,XML能为Wed)数据挖掘提供了新解决方法。 3基于Web访问路径模式 为了有效地帮助WeI)站点管理员管理WeI)站点,就必须在w}h页中挖掘用户访问路径模式,并给出挖掘用户访问路径模式的有效算法。在给定的Wehlog中利用事务数据库中的挖掘序列模式的方法来发现所有的大访问路径。 若设LPK表示大K-访问路径的集合,其侯选集为CK, CK是Lx一个的一个超集,CK包含那些可能出现在Lx中的K-访问路径,算法如下: 输入:访问事务S最大前向路径集合LP 利用此方法可以有效地发现大访问路径。 4 结语 面向Web的数据挖掘技术是目前的一大热点,由于Web上的数据是以多种形式存在,没有特定的模型。本文给出了数据挖掘的体系结构,在基于Web的数据挖掘中,采用关联方法,挖掘出隐藏在数据背后的知识。XML是由W3C定义的一个新的标记语言,

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档