基于HTMLParser的BBS信息抽取系统的设计与实现.pdfVIP

下载本文档

4
0
约1.47万字
约 6页
2017-05-08 发布于河南
举报
版权申诉

基于HTMLParser的BBS信息抽取系统的设计与实现.pdf

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于HTMLParser的BBS信息抽取系统的设计与实现

计算机应用《自动化技术与应用 2012年第31卷第 1期 ComputerApplications 析，去除噪声，使正文内容更加精确。本文主要讨论如件程序。包装器由一系列的抽取规则以及应用这些规何基于 HTML Parser的平台，更加精确的抓取BBS信则的程序代码组成。通常一个包装器只能处理一种特息，使之用于舆情分析、有哪些信誉好的足球投注网站引擎等系统。定信息源。 (3) 基于HTML结构的信息抽取 2 背景知识该类主题信息抽取技术的基本思想是：根据 HTML 2．1 Web信息抽取技术网页本身的层次结构生成语法树，在语法树的基础上进信息提取(InformationExtraction，简称 IE)的目标行信息抽取。实施过程如下：在主题信息抽取之前，运是从自然语言文档中找到特定的信息，是自然语言处理用HTML解析器把HTML网页解析成语法树，然后通领域特别有用的一个子领域。IE系统中的关键组成部过自动或者半自动方式生成信息抽取规则，最后利用这分是一系列的抽取规则或模式，其作用是确定需要抽取些规则对解析生成的语法树实施信息抽取 2『1。的信息。 2．2 HTMLParser简介信息抽取技术对于从大量信息中抽取需要的特定 HTMLParser是一个纯Java编写的HTML解析的信息是非常有用的。互联网上的信息分散杂乱，同一主库，不依赖于其它的Java库文件，主要用于转换、改造题的信息通常在不同的网站上，表现形式各不相同。信或提取HTML。其基本功能如下：息抽取技术提取网络信息中的特定信息，用结构化的形 1．信息提取功能式存储。 ● 文本信息抽取，例如对 HTML进行有效信 Web信息抽取 (Web InformationExtraction，简息有哪些信誉好的足球投注网站；称为 WebIE)是将 Web作为信息源的一类信息抽取，从 ● 链接提取，用于提取页面链接；半结构化的Web文档中提取数据，属于Web内容挖掘 ● 资源提取，可搜集到当前页面的图像、声音的范畴。Web信息抽取继承了传统信息抽取技术的研等资源；究成果，其核心是将半结构化的HTML页面中的信息 ● 链接检查，用于检查HTML中的链接是否有效；抽取出来，进一步以更结构化、语义更清晰的形式表 ● 页面内容的监控。示，便于用户在查询等应用程序中利用Web中的数据 2．信息转换功能提供便~rlL51。 ● 链接重写，用于修改页面中的错误链接；目前的Web信息提取技术主要分为以下几类： ● 网页内容拷贝，用于将网页内容保存到本地； (I) 基于视觉特征的信息抽取 ● 内容检验，可以用来过滤网页上一些令人不愉基于视觉特征的信息抽取技术利用 Web页面中的快的字词；视觉特征对页面进行挖掘，实现页面分割和信息抽取。 ● HTML信息清洗，清除网页中广告等网页噪声；根据人的视觉特征进行信息抽取的基础是网页中的 ● 将 HTML页面转成XML页面。 HTML标签。原因是web页面中的HTML标签不仅组 HTMLParser中