- 1、本文档共72页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要
随着 Web 的迅猛发展,整个Web 上的网页数量已经超过万亿级,并且其中
大部分都是深层网络(Deep Web )的数据。因而,Web 上的数据呈现出规模巨
大、结构化程度高、自治性与异质性以及按照领域分布的特征。如何对这些数
据进行有效集成,为用户提供统一的访问接口,是当前亟待解决的问题,也是
近几年的研究热点之一。
根据不同领域的网页结构化特点,本文将 Web 上的页面分为四种类型:数
据记录列表型、单数据记录型、文档列表型和文档数据型。其中,数据记录列
表型以及单数据记录型网页包含多条或者单条数据记录,通常分布在图书、电
影、汽车等领域;文档列表型和文档数据型网页包含文本型数据,通常分布在
新闻、博客等领域。
针对数据记录型页面,传统的方法通常是通过对网页结构或特征的分析来推
导包装器(Wrapper )。这种方法严重依赖于网站模板,在处理某些网站时可能
完全失效。同时,以往研究对于包装器的维护问题关注较少。这两个问题导致
无法真正实现大规模 Deep Web 数据集成。本文提出了一种数据驱动的包装器自
动生成与维护方法。该方法利用同一领域不同网站之间,以及同一网站不同版
本之间的语义关系,通过数据项的匹配,来生成和维护包装器。该方法避免了
原有抽取方法的模板依赖问题,无需设置阈值。经过大量实验证明,此方法在
准确性与适用性上,与原有方法相比有较大提高。
针对文档数据型页面,传统方法主要是基于页面上丰富的视觉信息进行数据
抽取。这些方法需要下载网页本身的 HTML 文件以及其附属的 CSS 样式文件、
Javascript 脚本文件,以获取视觉特征,这样导致了传统基于视觉的方法效率低
下、无法抽取微数据页面。并且,传统基于视觉的抽取方法没有考虑同一数据
源不同页面之间的结构关联,因而抽取准确性不够稳定。针对这些问题,本文
提出了一种基于视觉的自适应数据抽取方法,用以进行文档数据型页面的正文
抽取。该方法仅需下载主 HTML 页面,然后利用数据块大小的视觉信息进行抽
取,从而大大提高了抽取效率。同时,在抽取过程中,积累同数据源的抽取规
则历史,在基于视觉方法与命中次数最高的抽取规则方法发生冲突时,通过贝
叶斯最优决策的方法进行冲突解决,并进行抽取规则的更新。经过大量的实验
1
证明,该方法在抽取准确性及抽取效率上均有较大提高。同时能够有效处理微
数据抽取以及模板发生变动的情况。
基于本文提出的两类数据集成方法,我们在多个领域下开发了原型系统:如
学术领域的 C-DBLP,其访问量超过了 250 万人次;工作信息领域的工作通系
统,其集成数据量超过 300 万条;新闻领域的网络舆情监控系统,其集成数据
量超过 450 万条;网络购物领域的图书价格比较系统,其为动态数据集成方式。
通过这些系统的实际运行,验证了本文方法的可行性。
关键词: Deep Web; Web 数据集成; 数据抽取
2
Abstract
With the rapid development of World Wide Web, the number of Web pages is
more than one trillion. Most of these pages are in Deep Web. Therefore, Web data
have these features including large-scale, structured, autonomy, heterogeneity and
distribution based on domains. How to integrate these data and provide a unified
inferface for users is a challenging problem, and it is
文档评论(0)