HTMLUNIT在网络信息采集系统中的应用.pdf

HTMLUNIT在网络信息采集系统中的应用.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 22卷 第 4期 淮海工学院学报 (自然科学版) Vo1.22 NO.4 2013年 12月 JournalofHuaihaiInstituteofTechno1ogy(NaturalScienceEdition) Dec.2O13 DOI:10.3969/J.issn.1672—6685.2013.04.009 HTMLUNIT在 网络信息采集系统中的应用 陈永江 ,仲兆满 ,陈宗华 (江苏金鸽网络科技有限公司,江苏 连云港 222006) 摘 要 :首先分析 了传统 HttpClient方式进行 网页信息抓取 时的不足 ,进而讨论 了HTMLUNIT 技术对富JavaScript页面的支持、获取 Ajax技术页面的异步数据和需要模拟交互的页面数据的机 器 自动抓取 问题 ,并给 出实例和实现。进行 了HTMLUNIT与流行浏览器 内核 JavaScript解析速 度的对比性试验 ,最后得 出了分析结论。 关键词 :采集系统 ;HTMLUNIT;Java浏览器 内核 中图分类号 :TP311.52 文献标识码:A 文章编号 :1672—6685(2013)04—0031—05 ApplicationofHTM LUNIT intoNetwork Information—collectingSystem CHENYong—jiang,ZHONGZhao-man,CHEN Zong-hua (JiangsuJingeNetworkTechnologyCo.,Ltd.,Lianyungang222006,China) Abstract:Analyzingtheshortcomingsincollectingwebpageinformationbythetraditionalwayof HttpClient,wefocusedonthewaystouseHtmlUnittechnologytocollectinformationfrom web pagesbyusingrichJavaScripttechnologyorAjaxtechnology.Wealsodiscussedthewaystolog inwebsitesbyusing HtmlUnitinJavaprogram,andweprovidedexamplesandimplementa— tions.Meanwhile,wemadeJavaScriptparsingspeedcomparisontestsintheHtmlUnitbrowser kernel,andarrivedatthefinalconclusionsbasedonouranalysis. Keywords:data-collectingsystem;HTMLUNIT;Javabrowserkerne1 面信息是使用JavaScript,Ajax技术在页面获取后 0 引言 二次加载生成的,有的还需要人与浏览器交互才能 获取 。因此 ,页面动态脚本支持和解析、浏览器模拟 网络信息采集是将非结构化的信息从大量的网 交互就成为全面获取互联网信息必须解决的问题。 页中抽取出来并保存到结构化的数据库 中的过程 。 网络信息采集技术在有哪些信誉好的足球投注网站引擎、互联 网舆情监测系 网络信息采集系统需要解决的问题 统、企业竞争情报系统、各类专业信息垂直有哪些信誉好的足球投注网站系统 等中有广泛应用 ,是这些系统 的数据来源的基础技 网页浏览器是显示网页服务器或档案系统内的 术 。随着网页开发技术 的不断发展 ,社交媒体大行 文件,

文档评论(0)

lizhencai0920 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档