基于HTMLParser的BBS信息抽取系统的设计与实现.pdfVIP

基于HTMLParser的BBS信息抽取系统的设计与实现.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HTMLParser的BBS信息抽取系统的设计与实现

计 算 机 应 用 《自动化技术与应用 2012年第31卷第 1期 ComputerApplications 析 ,去除噪声 ,使正文内容更加精确 。本文主要讨论如 件程序。包装器 由一系列的抽取规则以及应用这些规 何基于 HTML Parser的平台,更加精确的抓取BBS信 则的程序代码组成。通常一个包装器只能处理一种特 息,使之用于舆情分析、有哪些信誉好的足球投注网站引擎等系统。 定信息源。 (3) 基于HTML结构的信息抽取 2 背景知识 该类主题信息抽取技术的基本思想是 :根据 HTML 2.1 Web信息抽取技术 网页本身的层次结构生成语法树,在语法树的基础上进 信息提取(InformationExtraction,简称 IE)的目标 行信息抽取。实施过程如下:在主题信息抽取之前,运 是从自然语言文档 中找到特定的信息,是 自然语言处理 用HTML解析器把HTML网页解析成语法树 ,然后通 领域特别有用的一个子领域。IE系统中的关键组成部 过 自动或者半 自动方式生成信息抽取规则,最后利用这 分是一系列 的抽取规则或模式,其作用是确定需要抽取 些规则对解析生成的语法树实施信息抽取 2『1。 的信息 。 2.2 HTMLParser简介 信息抽取技术对于从大量信息中抽取需要的特定 HTMLParser是一个纯Java编写的HTML解析的 信息是非常有用的。互联网上的信息分散杂乱 ,同一主 库,不依赖于其它的Java库文件 ,主要用于转换、改造 题 的信息通常在不同的网站上 ,表现形式各不相 同。信 或提取HTML。其基本功能如下: 息抽取技术提取网络信息中的特定信息,用结构化的形 1.信息提取功能 式存储。 ● 文本信息抽取 ,例如对 HTML进行有效信 Web信息抽取 (Web InformationExtraction,简 息有哪些信誉好的足球投注网站 ; 称为 WebIE)是将 Web作为信息源的一类信息抽取 ,从 ● 链接提取 ,用于提取页面链接; 半结构化的Web文档中提取数据 ,属于Web内容挖掘 ● 资源提取 ,可搜集到当前页面的图像 、声音 的范畴。Web信息抽取继承了传统信息抽取技术的研 等资源 ; 究成果 ,其核心是将半结构化的HTML页面中的信息 ● 链接检查,用于检查HTML中的链接是否有效; 抽取出来,进一步 以更结构化 、语义更清晰的形式表 ● 页面内容的监控。 示,便于用户在查询等应用程序中利用Web中的数据 2.信息转换功能 提供便~rlL51。 ● 链接重写,用于修改页面中的错误链接 ; 目前的Web信息提取技术主要分为以下几类 : ● 网页内容拷贝,用于将网页内容保存到本地 ; (I) 基于视觉特征的信息抽取 ● 内容检验,可以用来过滤网页上一些令人不愉 基于视觉特征的信息抽取技术利用 Web页面 中的 快的字词 ; 视觉特征对页面进行挖掘 ,实现页面分割和信息抽取。 ● HTML信息清洗 ,清除网页中广告等网页噪声; 根据人 的视觉特征进行信息抽取 的基础是网页 中的 ● 将 HTML页面转成XML页面。 HTML标签。原因是web页面中的HTML标签不仅组 HTMLParser中

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档