网站大量收购独家精品文档,联系QQ:2885784924

web页面的信息抽取算法设计.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
web页面的信息抽取算法设计

Web页面的信息抽取算法设计 【摘 要】本文给出一种Web页面的数据结构描述方式,比对所需信息的字符串序列,对通用型框架结构和数据域进行划分,经规则化处理后可以对web网页自动地生成模板,从而达到抽取信息的目的。?   【关键词】信息抽取;通用框架;算法设计?   1.引言?   计算机和计算机网络的发展和普及,使得网络逐渐成为信息交流的关键平台。为了人们在海量的网络信息中更加便捷地获取所需信息,有必要对同领域信息的抽取、汇总、集成,可以建立对应领域的信息库。?   Web动态网页由服务器根据请求从数据库中选取数据并嵌入到通用模板而生成,缺乏结构和语义信息的描述,其中包含的信息不易被一般应用程序直接获取。因此,如何将网页中的数据抽取出来就变得非常迫切。Web页面的信息抽取技术为实现这一目标提供了新的途径[1]。?   2.Web信息抽取的过程设计?   2.1信息抽取?   信息抽取(Information Extraction)是从文本包含中识别出用户所需的部分信息,并将其转换为结构化、有特定组织形式的数据集合的过程。?   2.2 Web 页面信息的数据结构的定义?   Web网页的基本元素用三类标签来描述,分别是开始标签、结束标签以及文本内容。Web网页的数据结构是用字符串序列、标签树两种结构来描述。字符串序列是用开始标签、结束标签以及文本内容构成的一种线性数据结构;标签树用开始标签和文本内容表示网页层次结构。?   2.3 Web 信息抽取过程的设计?   Web 信息抽取方法关键环节为通用框架结构检测、模板抽取。图 1 是Web 信息抽取的过程图。?   Web 信息抽取是将包含用户所需信息的 Web 网页中的数据自动提取到一个结构化的数据集内的信息处理过程。Web 信息抽取针对有价值的文本进行结构分析,其效率和质量较高,更注重工程性和可操作性,也更容易面向实际应用[2]。?   3.实现WEB信息抽取的关键技术?   3.1 抽取规则——构建通用型框架?   通用型框架的建构以比对字符串序列异同的方式进行,对通用型框架结构和数据域进行划分。其中,通用型框架是指与web网页呈现的主要内容无关的部分,如导航条、头尾信息、广告信息和 flash特效等。数据域是指web网页中除了通用型框架以外的内容,将数据域的字符串序列进一步转换成标签树结构,就得到数据的样本集合。?   通用型框架处理过程中检测网页间共有的且与网页实质内容无关的信息,对去除通用型框架后得到的数据域信息进行信息抽取时,准确率会有所提高。具体操作是,首先进行页面分区,将网页划分成不相交的区域的过程。然后定义区域树用树状结构对页面分区的结果进行表示。树的根结点对应于整个网页,父结点的区域由各子结点区域组成。接下来,确定结点的分区级别,得到该结点对应的区域时进行的页面分区次数。区域树的分区级别指树的深度。为区域树选定合适的分区级别将有利于检测到更佳的通用型框架结构。再定义通用型框架结构。将网页间共有的、与网页实质内容无关的头信息、尾信息、广告、浏览导向条以及 flash 等内容信息称为通用型框架结构。用双序列比对算法对网页字符串序列进行比对,将最佳的相似字符串作为通用型框架结构。算法流程如下[3,4]:?   (1) 对变量max、x和y进行初始化。max 表示局部最大值,y 和x 分别表示矩阵当前行及其前一行。?   (2) 计算得分矩阵。该过程由以下三步迭代完成。?   (2.1)?   其中p(i+1,j+1)为字符串匹配函数,当字符串匹配时取值c,否则,可取值d(d0);g为间隔罚分。?   (2.2)当p(i+1, j+1)0时,如果max   (2.3)令x=y。?   (3)计算最佳相似字符串的长度 ,其中, 为调节参数。?   (4)得到通用框架。位于Pm- 与Pm范围中的最佳相似字符串就是通用框架。算法中,在找到最长的匹配字符串后,需要对参数进行调节,从而得到最佳的相似字符串作为通用型框架结构。?   3.2模板抽取?   Web 上的动态页面有两种来源,一类是超链接方式,另外一类需要填写 Web 页面上的表单(Form),然后提交给网站服务器后动态生成,这类页面无法直接获取,也就是深网页。根据动态 Web 页面的构成模板可以将其分为A、B两大类。A 类:整个页面内容包括很多项数据,这些数据对应于一个实体的各项属性,组成了一条完整的记录。B类:页面中包含了多条记录,每条记录又包含多个数据项,即该条记录的属性项各条记录的属性项基本相同。?   模板抽取是对样本间各种匹配与不匹配的部分进行有哪些信誉好的足球投注网站和划分,经规则化处理后可以得到模板。模板抽取过程如图2所示:?   本文给出的抽取算法是:输入一个样本集合,每一次比较包装器树和一个样本网页树并产生一棵新的包

文档评论(0)

2017ll + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档