基于主题网络爬虫的信息数据采集方法的研究与应用.pdf

基于主题网络爬虫的信息数据采集方法的研究与应用.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于主题网络爬虫的信息数据采集方法的研究与应用 互联网上的各种信息以数百万级的方式增长着,而这 些信息又大多是散乱分布的,无法满足人们所要求的整合信 息分析的需求,传统的采集和收集方法又很难满足要求。因 此本文提出利用主题网络爬虫的概念和方法,运用正则表达 式去匹配出网页中所需要的特定信息数据,有效的增强爬虫 程序的适用性、缩短用户获取信息的时间。并将此方法应用 于二手房信息数据采集中,包括价格、户型、楼层等基本数 据,建立起了一个统一的二手房数据库。 【关键词】主题网络爬虫 正则表达式 二手房 1 引言 互联网上的信息数据以爆炸式的方式增长着,而这些信 息数据内容又大多是基于页面形式的,其中包含一些非结构 化的数据,如文字、图像、视频等。如果只是采用人工化的 方式对信息数据进行采集,已经很难满足人们的要求了。因 此有必要采用某种技术或手段从互联网上自动采集信息数 据。 网络爬虫能实现对互联网信息数据的自动采集,从而弥 补了人工采集的缺陷。网络爬虫是随着有哪些信誉好的足球投注网站引擎发展而产生 的一种通用信息采集技术,是有哪些信誉好的足球投注网站引擎中的核心部分,它根 据用户要求从互联网上下载网页,尽可能多的抓取网页中的 相关链接和内容,并能沿着链接继续爬行,是一种能力强大 的信息采集程序。 2 主题网络爬虫 主题网络爬虫是在通用网络爬虫的基础上进行的延伸, 根据某一领域内特定的主题进行相关信息的查询,有哪些信誉好的足球投注网站互联 网抓取下载网页,从网页中采集相关信息数据和超链接。它 并不会访问所有的网页,而是在访问前就判断超链接、锚文 本、文本等与主题的相关度,按照相关度的高低来决定访问 的优先级顺序。 主题网络爬虫的主要思想就是:把用户有哪些信誉好的足球投注网站的查询词作 为主题,从选定的初始 URL出发,访问网页中的所有超链接, 根据某种有哪些信誉好的足球投注网站策略对这些 URL进行主题相关度预测, 将符合 要求的 URL加入待访问队列中, 并按照某种优先级排序从队 列中抽取 URL来作为下一次要访问的对象, 按照这种规律执 行下去,直到待访问队列为空或者满足某种停止条件为止。 3 基于主题网络爬虫的信息数据采集方法与应用 通过分析网站页面时发现,页面中关于某一项主题的结 构和框架都是一样的,因此可以考虑运用正则表达式去匹配 出页面中我们所需要的链接和内容。下面以安居客网站为例 进行二手房数据的采集。 3.1 网站页面分析 3.1.1 链接地址页面分析 通过观察安居客青岛市二手房的房源列表,我们发现, 每一条房源信息的组织结构是一样的,如房源地址的链接是 上下结构排列的,价格,面积等信息的结构排列都是在同一 个位置的。深入分析页面源代码发现,每一个房源链接的地 址都是在 herf= ” ”引号之间,因此可以得出匹配房源链接 地址的正则表达式: \s* 3.1.2 房源具体信息页面分析 网站具体页面中包含有房屋的售价、面积等基本信息, 我们所建立的二手房数据库就是把这些字段全部收集起来, 放到一个数据表中以供后期使用。观察网页源码我们可以发 现,有些内容的源代码前后的 HTML 标签是不一样的, 因此, 就有必要对我们所需要的每一项内容写一个正则表达式,以 匹配面积内容为例, 可以得到正则表达式为: 面积\ s* ([^ , 括号中为匹配结果。 3.2 采集流程 用户选取要抓取的网站, 系统由初始 URL开始访问网站, 下载分析 URL 的源代码, 利用编写好的正则表达式去匹配出 此页中的超链接和文本内容,将超链接加入到待抓取队列中 的同时,将文本内容存入数据库中,根据先进先出的次序从 待抓取队列中抽取出新的 URL开始访问,依次进行下去,直 到

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地上海
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档