HttpClient和HtmlParser实现爬虫解析.docx

下载文档 降价啦

11
0
约1.81万字
约 26页
2017-01-10 发布于湖北
举报
版权申诉
保障服务

HttpClient和HtmlParser实现爬虫解析.docx

1、本文档共26页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

HttpClient和HtmlParser实现爬虫解析

网络爬虫技术什么叫网络爬虫网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫的分类网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫(General Purpose Web Crawler) ；主题网络爬虫(Topical Web Crawler) ；深层网络爬虫(Deep Web Crawler)。实际应用中通常是将系统几种爬虫技术相互结合。通用网络爬虫通用网络爬虫根据预先设定的一个或若干初始种子URL开始，以此获得初始网页上的URL列表，在爬行过程中不断从URL队列中获一个的URL，进而访问并下载该页面。页面下载后页面解析器去掉页面上的HTML标记后得到页面内容，将摘要、URL等信息保存到Web数据库中，同时抽取当前页面上新的URL，保存到URL队列，直到满足系统停止条件。其工作流程如图1所示。通用爬虫主要存在以下几方面的局限性：由于抓取目标是尽可能大的覆盖网络，所以爬行的结果中包含大量用户不需要的网页；不能很好地有哪些信誉好的足球投注网站和获取信息含量密集且具有一定结构的数据；通用有哪些信誉好的足球投注网站引擎大多是基于关键字的检索，对于支持语义信息的查询和索引擎智能化的要求难以实现。由此可见，通用爬虫想在爬行网页时，既保证网页的质量和数量，又要保证网页的时效性是很难实现的。主题网络爬虫主题爬虫并不追求大的覆盖率，也不是全盘接受所有的网页和URL，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息，不仅客服了通用爬虫存在的问题，而H-返回的数据资源更精确。主题爬虫的基本工作原理是按照预先确定的主题，分析超链接和刚刚抓取的网页内容，获取下一个要爬行的URL，尽可能保证多爬行与主题相关的网页，因此主题爬虫要解决以下关键问题：如何判定一个已经抓取的网页是否与主题相关；如何过滤掉海量的网页中与主题不相关的或者相关度较低的网页；如何有目的、有控制的抓取与特定主题相关的web页面信息；如何决定待访问URL的访问次序；如何提高主题爬虫的覆盖度；如何协调抓取目标的描述或定义与网页分析算法及候选URL排序算法之问的关系；如何寻找和发现高质量网页和关键资源。高质量网页和关键资源不仅可以大大提高主题爬虫搜集Web页面的效率和质量，还可以为主题表示模型的优化等应用提供支持模板设计主题爬虫的目标是尽可能多的发现和搜集与预定主题相关的网页，其最大特点在于具备分析网页内容和判别主题相关度的能力。根据主题爬虫的工作原理，下面设计了一个主题爬虫系统，主要有页面采集模块、页面分析模块、相关度计算模块、页面过滤模块和链接排序模块几部分组成，其总体功能模块结构如图2所示。页面采集模块：主要是根据待访问URL队列进行页面下载，再交给网页分析模型处理以抽取网页主题向量空间模型。该模块是任何爬虫系统都必不可少的模块。页面分析模块：该模块的功能是对采集到的页面进行分析，主要用于连接超链接排序模块和页面相关度计算模块。页面相关度计算模块：该模块是整个系统的核心模块，主要用于评估与主题的相关度，并提供相关的爬行策略用以指导爬虫的爬行过程。URL的超链接评价得分越高，爬行的优先级就越高。其主要思想是，在系统爬行之前，页面相关度计算模块根据用户输入的关键字和初始文本信息进行学习，训练一个页面相关度评价模型。当一个被认为是主题相关的页面爬行下来之后，该页面就被送入页面相关度评价器计算其主题相关度值，若该值大于或等于给定的某阂值，则该页面就被存入页面库，否则丢弃。页面过滤模块：过滤掉与主题无关的链接，同时将该URL及其所有隐含的子链接一并去除。通过过滤，爬虫就无需遍历与主题不相关的页面，从而保证了爬行效率。排序模块：将过滤后页面按照优先级高低加入到待访问的URL队列里主题爬虫流程设计主题爬虫需要根据一定的网页分析算法，过滤掉与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它会根据一定的有哪些信誉好的足球投注网站策略从待抓取的队列中选择下一个要抓取的URL，并重复上述过程，直到满足系统停止条件为止。所有被抓取网页都会被系统存储，经过一定的分析、过滤，然后建立索引，以便用户查询和检索；这一过程所得到的分析结果可以对以后的抓取过程提供反馈和指导。其工作流程如图3所示。深层网络爬虫1994年Dr．jillEllsworth提出DeepWeb(深层页面)的概念，即DeepWeb是指普通有哪些信誉好的足球投注网站引擎难以发现的信息内容的Web页面¨。DeepWeb中的信息量比普通的网页信息量多，而且质量更高。但是普通的有哪些信誉好的足球投注网站引擎由于技术限制而搜集不到这些高质量、高权威的信息。这些信息通常隐藏在深度Web页面的大型动态数据库中，涉及数据集成、中文语义识别