- 1、本文档共64页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
术语及相关背景-数据挖掘与信息检索研究小组
探测新模板 启发式规则 * * * 标注通常由手工完成的,包括标记训练网页或用例中用户希望抽取的数据项。 有监督学习方法:分类、K-近邻学习(计算距离训练样例最相似的K个样本) 无监督学习方法:聚类、K-均值聚类(根据某个距离函数反复地把数据分到K个聚类中) * 即通过挖掘多个数据记录中的重复模式来寻找这些模板是可能的 模式可以用正则表达式(regular expression)表示 说某个字符串匹配某个正则表达 式,通常是指这个字符串里有一部分(或几部分分别)能满足表达式给出的条件。 在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。正则表达式就 是用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。 和通配符类似,正则表达式也是用来进行文本匹配的工具,只不过比起通配符,它能更精 确地描述你的需求——当然,代价就是更复杂 \b是正则表达式规定的一个特殊代码(好吧,某些人叫它元字符,metacharacter),代表着单词的开头或结尾,也就 是单词的分界处。 * 网页聚类的目标是尽可能地把输入 * 对于这种列表页面,Liu Bing等人在2003年提前了一种高效抽取数据记录的算法。算法分两个步骤:1,找出网页中的数据块(数据块有可能是多个),把数据块中的每个记录提取出来,然后对这些数据记录进行抽取。 * S1至Sn代表了一系列描述real-world 对象的HTML页面,这些对象是如演唱会、房地产广告(real-estate ads),及书籍等等。文中用了演唱会这个对象来举例,这可以看为是由三个类型值(atomic type value)组成的关系型元组,这三个类型值为:artist、date、address。图中是三个描述这些信息的基于模板的页面 * 接下来指定何种数据需要从HTML页面中被定位和抽取。简要地说,结构化对象描述(SOD)允许用户由原子类型(atomic type)开始,描述具有多重限制的嵌套关系型数据。为了精确性,我们假定了一组atomic/entity types,每种类型代表了一个原子块信息(an atomic piece of information)。 一个SOD可以任何复杂的类型。SOD每个实体类型t是假定有一个关联的识别器r,可以简单地看作是一个正则表达式或一个字典的值。 一个析取式表示一对相互排斥的类型。 可以表示任何复杂的类型,并可能通过附加数值,文本或消歧规则来补充。演唱会这个对象可以指定为一个包含三个实体类型的SOD,这三个实体类型分别为地址、日期和艺术家的名字。其中地址和日期这两个实体类型与预定义的识别器有联系。和艺术家这个实体类型则有一个isInstanceOf识别器。 * 对于每一个给定的SOD s和数据源S, SOD s中的每组实体类型type t =[{ti },mi ] ,模板?定义一个sept(分离符),代表了实体类型ti被这些分隔符隔开。 对于每组类型type t ={t1,...,tk },模板?定义了k个类型的k个实例组成了t,被这些分隔符隔开。 * 我们可以看到这里的Artist、Date和Address被定义为类型 * 如前面所说的一样,提取数据的过程包括自动标注和提取模板两个步骤。 在web 页面里会有很多无用的信息会影响到后期处理的效率甚至结果,这些无用信息包括例如标题(头文件)、脚本、样式、评论、图片、隐藏的标签、空白区域等等。文中将每个页面看为是一个树结构的块,这些块是基于页面的DOM树以及页面的水平和垂直线的。 对于所有源,利用HTML页面的排版引擎,我们使用前向启发式有哪些信誉好的足球投注网站页面里的最佳信息候选片段(最大和中央矩形)。由于每个页面的块结构和块大小是不一样的,所以,我们利用利用它的标签名(tag name)定义最佳候选块。另外由于HTML文档并不是每次都符合语法规则,所以我们使用了Jtidy将文档转为XML文档。 * 普遍的选择初始模板的做法是选择节点数最多的网页作为初始模板 * P模式下,语料库中(in the corpus)i,t对的网页点击数。 假如这个it对在该语料库中被多次提取,则说明该it对是正确的置信度越高。得分最高的页面会被用作提取的模板 * 通过给包含指定类型文本的DOM结点指定一个属性生成这个注释。 * * S1至Sn代表了一系列描述real-world 对象的HTML页面,这些对象是如演唱会、房地产广告(real-estate ads),及书籍等等。文中用了演唱会这个对象来举例,这可以看为是由三个类型值(atomic type value)组成的关系型元组,这三个类型值为:artist、date、address。图中是三个描述这些信息的基于模板的页面 * abort condition(中止条
文档评论(0)