网站大量收购独家精品文档,联系QQ:2885784924

deep we数据源发现相关技术研究.pdf

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
deep we数据源发现相关技术研究

DeepWeb数据源发现相关技术研究 中文摘要 中文摘要 随着网络飞速发展和所含信息规模的日益扩大,当前web中蕴含了大量的各种 各样的数据,其中很大一部分是高质量的结构化信息。而这些信息大多被保存在web Web 在线数据库中,用户只能通过查询接口来获取相关的信息,这类信息被称为Deep 信息。对这些结构化信息进行收集并集成,以提供高质量的结构化信息的检索服务, W曲信息进行收集,首先必 用户就能够快速、准确地找到所想要的信息。要对Deep 须解决的问题就是发现数据源。 Web数据源发现所涉及到的相关技术进行了分析研究,并提出了相 本文对Deep 关的算法和模型。主要研究工作包括: Web (1)研究了基于DeepWeb的查询接口判定技术。DeepWeb查询接口是Deep 信息访问的入口,所以对数据源的发现其实也就是对查询接口的发现。本文提出了 一种基于表单特征图的查询接口判定算法。 Web数据源发现问题,提出了一个面向查询 (2)采用分布式爬虫技术处理Deep 接口判定的爬虫框架及算法。 (3)通过实践比较不同页面信息抽取方法的优缺点,提出一种基于DOM树的页面 信息抽取技术,该方法在DOM树准确定位的基础上,较好地处理了接口抽取中出现的 问题。 (4)对收集到的数据源信息进行初步的处理,主要是去重处理,获得都是唯一的 包含查询接口的表单。 此外,本文还对文中提出的方法和技术进行了实验,通过对实验结果的分析进一 步验证本文提出的技术方法是行之有效的。 Web,数据源发现,特征图结构,接口判定,特征抽取 关键词:Deep 作者:李林 。 指导老师:崔志明(教授) Relevant ResearchOn WebSource ABSTRACT The TechnologiesDeep Discovery ABSTRACT With ofnetworkand ofinformation’S is expanding scale,there rapidgrowing gradual ar structure amassofkindsofinformationinthe oftheme web,most high—quality storedinonline could information.Inmost informationis databases,user instances,this callthemas Web them insearch we g

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档