- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HTMLParser的BBS信息抽取系统的设计与实现
计 算 机 应 用 《自动化技术与应用 2012年第31卷第 1期
ComputerApplications
析 ,去除噪声 ,使正文内容更加精确 。本文主要讨论如 件程序。包装器 由一系列的抽取规则以及应用这些规
何基于 HTML Parser的平台,更加精确的抓取BBS信 则的程序代码组成。通常一个包装器只能处理一种特
息,使之用于舆情分析、有哪些信誉好的足球投注网站引擎等系统。 定信息源。
(3) 基于HTML结构的信息抽取
2 背景知识 该类主题信息抽取技术的基本思想是 :根据 HTML
2.1 Web信息抽取技术 网页本身的层次结构生成语法树,在语法树的基础上进
信息提取(InformationExtraction,简称 IE)的目标 行信息抽取。实施过程如下:在主题信息抽取之前,运
是从自然语言文档 中找到特定的信息,是 自然语言处理 用HTML解析器把HTML网页解析成语法树 ,然后通
领域特别有用的一个子领域。IE系统中的关键组成部 过 自动或者半 自动方式生成信息抽取规则,最后利用这
分是一系列 的抽取规则或模式,其作用是确定需要抽取 些规则对解析生成的语法树实施信息抽取 2『1。
的信息 。 2.2 HTMLParser简介
信息抽取技术对于从大量信息中抽取需要的特定 HTMLParser是一个纯Java编写的HTML解析的
信息是非常有用的。互联网上的信息分散杂乱 ,同一主 库,不依赖于其它的Java库文件 ,主要用于转换、改造
题 的信息通常在不同的网站上 ,表现形式各不相 同。信 或提取HTML。其基本功能如下:
息抽取技术提取网络信息中的特定信息,用结构化的形 1.信息提取功能
式存储。 ● 文本信息抽取 ,例如对 HTML进行有效信
Web信息抽取 (Web InformationExtraction,简 息有哪些信誉好的足球投注网站 ;
称为 WebIE)是将 Web作为信息源的一类信息抽取 ,从 ● 链接提取 ,用于提取页面链接;
半结构化的Web文档中提取数据 ,属于Web内容挖掘 ● 资源提取 ,可搜集到当前页面的图像 、声音
的范畴。Web信息抽取继承了传统信息抽取技术的研 等资源 ;
究成果 ,其核心是将半结构化的HTML页面中的信息 ● 链接检查,用于检查HTML中的链接是否有效;
抽取出来,进一步 以更结构化 、语义更清晰的形式表 ● 页面内容的监控。
示,便于用户在查询等应用程序中利用Web中的数据 2.信息转换功能
提供便~rlL51。 ● 链接重写,用于修改页面中的错误链接 ;
目前的Web信息提取技术主要分为以下几类 : ● 网页内容拷贝,用于将网页内容保存到本地 ;
(I) 基于视觉特征的信息抽取 ● 内容检验,可以用来过滤网页上一些令人不愉
基于视觉特征的信息抽取技术利用 Web页面 中的 快的字词 ;
视觉特征对页面进行挖掘 ,实现页面分割和信息抽取。 ● HTML信息清洗 ,清除网页中广告等网页噪声;
根据人 的视觉特征进行信息抽取 的基础是网页 中的 ● 将 HTML页面转成XML页面。
HTML标签。原因是web页面中的HTML标签不仅组 HTMLParser中
您可能关注的文档
- 基于ExtJs的集群作业调度策略配置系统的设计与实现.pdf
- 基于FANUC系统的非圆曲面加工流程图与宏程序设计.pdf
- 基于FAST与Simulink风力发电机组降载荷控制研究.pdf
- 基于FANUC系统的螺纹误差测量与补偿.pdf
- 基于FCM自适应模糊聚类的温度测点优化.pdf
- 基于FCM和条件熵的风机属性约简.pdf
- 基于FDM的产品原型制作及后处理技术.pdf
- 基于FCS的带夹套釜式反应器监控系统的创新设计.pdf
- 基于FastICA算法的转子故障特征分析.pdf
- 基于FANUC0i系统的球面加工宏程序.pdf
- 第18讲 第17课 西晋的短暂统一和北方各族的内迁.docx
- 第15讲 第14课 沟通中外文明的“丝绸之路”.docx
- 第13课时 中东 欧洲西部.doc
- 第17讲 第16 课三国鼎立.docx
- 第17讲 第16课 三国鼎立 带解析.docx
- 2024_2025年新教材高中历史课时检测9近代西方的法律与教化含解析新人教版选择性必修1.doc
- 2024_2025学年高二数学下学期期末备考试卷文含解析.docx
- 山西版2024高考政治一轮复习第二单元生产劳动与经营第5课时企业与劳动者教案.docx
- 第16讲 第15课 两汉的科技和文化 带解析.docx
- 第13课 宋元时期的科技与中外交通.docx
最近下载
- 机械制造基础-全套PPT课件.pptx
- 地域建筑的分析__--__纳西族传统民居的现代启示.pdf
- 湖北省武汉市2023-2024学年六年级上学期语文期中试卷(含答案).pdf VIP
- 露天非煤矿山企业重大事古隐患认定目录及企业待检资料清单.doc
- 网络工程师职业规划4篇.pdf VIP
- 四年级音乐上册 牧童ppt课件1 人教新课标版.ppt
- 浙教版(2023)信息科技三上第2课感知智能生活教案.pdf VIP
- 中央空调节能运行管理.ppt
- 河北省石家庄市第四十一中学教育集团2023-2024学年七年级上学期期中历史试题(1).docx
- 《什么是冬天》儿童绘本故事演讲ppt课件(图文).ppt
文档评论(0)