- 1、本文档共24页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web数据抽取问题研究.ppt
研究背景 随着互联网技术的飞速发展,Web上的网站和网页数量以爆炸性的趋势增长,从而使Web成为一个巨大的、分布广泛的数据源,拥有着海量数据。 有效地获取和集成Web数据,为进一步的分析和挖掘提供支持,具有十分重要的应用价值和现实意义。Web数据集成可以实现对Web数据的有效整合,为市场情报分析、舆情分析、电子商务等应用提供支持。 Web数据抽取是Web数据集成中的关键问题,开展Web数据抽取问题研究对于Web数据集成具有重要的作用和意义。 研究背景 由于若干的网站都是使用脚本从后台数据库生成高度结构化的Html信息(如招聘网站、购物网站、学术网站、图书目录等基于表单的网站) 。脚本生成的网页结构的相似性可以使信息抽取系统使用简单的规则来从网站的所有网页中抽取信息。这些规则叫做包装器(Wrapper)。 一旦从一个网站学习得到一个包装器后,包装器将保持必威体育精装版的信息,包装器能频繁的生成相对少数的有标签的例子,因此,使用包装器从脚本生成的页面抽取信息是一种优势策略。 包装器破损问题:包装器依赖于大量的结构化的网页来抽取数据。面临的基本问题:Web上数据具有动态变化的特点,页面上的内容经常发生变化,甚至一个轻微的变化都将引起包装器中断,导致已产生的抽取规则失效,从而需要重新学习它们。 研究背景 研究内容 研究内容 Web数据集成中包装器自适应方法研究: 由于Web上数据具有动态变化的特点,网站和Web页面上的内容经常发生变化,导致已产生的抽取规则失效。 如何有效地提高Web数据抽取的自适应能力,使之能够根据目标网页发生的变化自动做出调整,更新相应的抽取规则,准确地完成抽取工作。 目前:找到最健壮的包装器来抽取数据。 研究进展 目前(论文: Robust Web Extraction Based on Minimum Cost Script Edit Model ) 研究问题 (找到最健壮的包装器来抽取感兴趣的数据) 选取模型 下一阶段 包装器自适应方法研究相关,再找一个点 Web实体踪迹抽取 问题定义 有序标签树:假设W是一个网页,表示W是一个与网页解析的Html DOM树相对应的有序的,有标签的树。 如:图1的Html树中,每个节点的孩子节点都是有序的;每个节点都有一个标签来自于标签集合L(eg:根节点有标签html),每个节点的标签本质上显示了节点的类型。 同构树:定义两个网页W1和W2是同构的,记作W1≡W2,如果它们有相同的结构和标签。(相应于两个网页解析的Html DOM树也是同构树。) 辨别节点:假设每个网页W有一个辨别节点d(W)包含感兴趣的文本信息,即将要抽取的信息。为了便于说明,我们假设在每个网页上都有一个单一的辨别节点。 问题定义 编辑操作:当网页经历结构改变时,每个改变都是三个编辑操作之一:插入一个节点、删除一个节点、以及替换节点的标签。 每个编辑操作将获得一个有序标签树和创建一个新的标签树。也就是,新树的标签和结构与原树相似,除了单个节点被编辑(插入、删除、替换)。因此,除了一个节点被插入或删除外,就是暗含的从旧树映射到新树。而且,这种映射能够通过多种多样的编辑操作组成。 编辑脚本:一系列的编辑操作集合。假设S(W)表示一个网页W在应用编辑操作系列S得到的一个新的网页版本。使用S(n),n∈W,来表示当应用编辑脚本S时节点n映射到S(W)上的节点。 编辑代价:定义一个代价函数来计算三种编辑操作的代价,编辑代价取决于编辑操作的难易程度。 (假设编辑代价满足三角不等式) 给定一个编辑脚本S,脚本S的代价表示为cost(S),计算代价为:S中每个操作通过代价函数求出各自的代价,并求和得到。 问题定义 包装器和健壮性: 包装器: Wrapper是一个函数 f(x) 从一个网页到一个网页中的节点。一个XPath路径表达式(数据抽取的核心是在整个网页中定位要抽取的数据的位置)。假设W是一个含有辨别节点的网页,我们想要构造包装器来从W变化后的新版本网页抽取信息。假设W’是网页变化后的新版本,需要找到辨别节点在W’中的位置。 健壮性:当网页发生变化时,包装器在新网页中继续保持抽取数据的能力。 问题定义 抽取置信度:评估我们对变化后的新网页中抽取数据的结果有多信任。 置信度给出了一个抽取结果有多好的指示。如果置信度是大的,那么抽取有可能是正确的。 直观地,如果页面W’与W有很多差异,那么我们在抽取中的置信度应该很低。然而,如果在W’中所有的变化在网页的个别部分,并且远离辨别的节点,那么我们的抽取中可能得到一个较大的置信度。 定义网页新版本的抽取置信度:假设S1是使W变化到W’的最小代价的编辑脚本(即S1(W) ≡W’)。此时,抽取节点是S1(d(W))。 考虑使W变化到W’
文档评论(0)