- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于XML的Web挖掘技术研究.pdf
基于XML 的Web 挖掘技术研究1
1 2
包剑 ,冀常鹏
1 辽宁工程技术大学计算机系,辽宁阜新(123000 )
2 辽宁工程技术大学 电子与信息工程系,辽宁阜新(123000)
摘 要:WWW 包含了丰富的信息资源,Web 挖掘可快速有效地获取所需要的信息。由于XML
具有可扩展性、结构化和有效性等特性,建立了一种传输结构化数据的方法,从而使用户能够
对Web 信息实施精确查询与模型抽取。根据XML 产生的背景及特点,提出基于XML 的Web
挖掘模型和数据抽取方法,详述 Web 挖掘的实现过程;并讨论了 Web 挖掘的价值及其对 Web
发展的重要性。
关键词:XML ;Web 挖掘;数据挖掘;Web 容挖掘
中图号:TP.391 文献标识码:A
0 引言
随着WWW 的飞速发展,万维网中蕴涵着具有巨大潜在价值的知识,为了从大量数据集合
中识别出有效新颖的、潜在有用的和最终可理解的模式,通常采用数据挖掘技术。Web 挖掘是
从数据挖掘发展而来,但是它又不同于传统的数据挖掘。Web 挖掘就是从Web 文档和Web 活
动中抽取感兴趣的潜在的有用模式和隐藏的信息。Web 上的数据以多种形式存在,没有特定的
模型来描述,且缺乏机器所能理解的语义,从而使有些数据挖掘技术并不适用于Web 挖掘,因
此Web 挖掘需要用到更多的有别于传统数据挖掘的技术,以提高信息检索的精度和效率,改善
检索结果的组织,使信息检索系统发展到一个新的水平。
Web 数据挖掘要比面向单个数据库中的数据挖掘复杂,针对Web 的半结构化数据,寻找一
个半结构化的数据模型则成为了解决问题的关键。此外,还需要能够自动地从现有数据中将这
个模型抽取出来,即模型抽取技术。因此半结构化数据模型及其抽取技术是面向Internet 的数据
挖掘技术实施的前提。XML 能为Web 挖掘带来新的解决方法,其TAG 具有语义,由用户定义,
能够反映一定的数据的含义,且 XML 文件描述的语义非常清晰,很容易与关系数据库的属性
相对应,因此可利用XML 对数据挖掘技术和Internet 上数据结构的特征进行分析,并把XML
作为一种半结构化的数据模型实施查询与模型抽取。
1 XML
XML 是互联网联合组织(W3C )于1998 年2 月设计的一组规范。XML 是SGML (Standard
Generalized Markup Language )的简化子集,它是为Web 应用设计的,是针对HTML 和Internet
设计的标准的、可扩展的、通用的数据格式。XML 是将整个 Web 网作为一个大型的分布式数
据库系统,Web 上存在各种各样的信息资源,如HTML 文档、数据库、Word 等。由于信息来
源不同,有结构化信息,也有半结构化信息,因此需要采用统一的 XML 数据模型,向上层提
供统一的XML 文档格式的数据。用统一的XML 数据模型描述Web 上各种数据的好处是为用
户提供了基于XML 的Web 数据库的查询界面,使Web 上的数据查询和数据操作像在普通关系
数据库上的查询和操作一样方便,使Web 上多个数据源间交换数据更方便。并使对基于统一的
1本课题得到辽宁省教育厅高等学校科学研究项目(202182054 )的资助。
-1-
XML 模型的各种信息资源进行数据挖掘成为可能。
XML 主要包括以下几个方面内容:DTD (Document Type Definition )文档类型定义,它规
定了XML 文件的逻辑结构,定义了XML 文件中的元素、文件的属性以及元素与元素之间的关
系,它可以帮助 XML 的分析程序校验 XML 文件标志的合法性;XSL (eXtensible Sty
文档评论(0)