基于页面预判的微博采集系统设计与实现-计算机技术专业论文.docxVIP

基于页面预判的微博采集系统设计与实现-计算机技术专业论文.docx

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
山东师范大学硕士学位论文 山东师范大学硕士学位论文 目 录 摘 要 I ABSTRACT II 第一章 绪论 1 1.1 论文研究的背景和意义 1 1.2 国内外研究现状 1 1.3 论文的结构 2 第二章 微博信息采集关键技术研究 3 2.1 微博采集概述 3 2.2 微博采集的基本原理 3 2.3 微博采集技术的分类 4 2.4 爬虫技术 5 2.4.1 原始网络爬虫5 2.4.2 聚焦网络爬虫6 2.5 网页预判技术 7 2.6 正则表达式技术 8 2.7 本章小结 10 第三章 系统需求分析11 3.1 微博微博信息采集面临的主要困难 11 3.2 系统目标和解决的问题 11 3.3 系统需求概述 12 3.3.1 系统的功能性需求分析12 3.3.2 系统的非功能性需求分析15 3.4 本章小结 17 第四章 系统设计 19 4.1 系统设计目标 19 4.2 系统总体设计 19 4.2.1 技术架构设计19 4.2.2 功能架构设计20 4.2.3 具体流程设计21 4.3 系统详细设计 23 4.3.1 系统登录模块23 4.3.2 频道采集模块23 4.3.3 主题处理模块24 4.3.4 数据导入导出模块25 4.4 数据库设计 25 4.4.1 创建数据库25 4.4.2 数据库表的设计25 4.5 本章小结 27 第五章 系统实现与测试 29 5.1 开发环境 29 5.2 系统主要模块的实现 30 5.2.1 微博种子的提取和处理30 5.2.2 频道采集模块的实现30 5.2.3 主题采集模块的实现33 5.2.4 数据导入导出模块的实现35 5.3 基于预判的微博采集系统的演示过程 36 5.4 系统测试 37 5.4.1 采集速度38 5.4.2 采集性能38 5.5 本章小结 39 第六章 总结与展望 41 参考文献 43 致 谢 45 摘 要 当今社会正处于一个信息爆炸的时代,网络信息飞速发展,人们可以随时随地的发表 网络消息,显而易见网络已经和我们的生活交融在一起,并影响着我们的生活改变着我们 的生活方式。网上繁杂的信息又以微博传播最为迅捷,怎样才能实时准确的扑捉到微博的 信息,成为人们所面临的一大难题。因此,对网络上微博信息的监控、采集、预处理以及 相关的信息收集已成为当今信息处理界研究的热点。 本文学习并分析了国内外先进的微博采集系统,通过大量的学术文章研究了并测试了 关于微博采集的相关技术,其中包括页面去噪技术、网页预判处理、爬虫技术、正规化处 理、正则表达式等技术。本文开发了一个基于预判的微博微博信息采集系统,该微博采集 系统基于 C#语言,SqlServer2005 数据库,可采集的频道有新浪娱乐、新浪体育、新浪爆 料、新浪文学、新浪电影和新浪情感。与它单一的微博信息采集系统相比,本系统有显著 的有点,它可以按照用户的要求按主题进行模糊查询并进行批量采集,这样就使得系统不 仅仅局限于对添加的频道的采集。本系统开发使用的是 SqlServer2005 数据库,数据库名为 Microblogtag,主要的数据库表有:microblogs 表、microblogstxt 表、microblogsback 表和 Adminstate 表。 本系统主要开发为四个模块分别为系统登录界面、数据频道采集模块、数据主题采集 模块、数据导入导出模块。本文详细阐述了微博频道采集模块、数据主题采集模块和导入 导出模块的设计和实现。本系统的核心为频道采集模块和主题采集模块,两个模块均可对 微博信息进行采集,一方面可以自动采集可按用户输入的主题采集,另一方面,在用户需 要的情况下,本模块还可以实现对数据进行导入导出。增加系统的灵活性。 本文还以主题采集为例,测试显示系统有效的避免了 Hash 值的变化与网页内容变化 产生偏离的现象,解决了网络爬虫虚拟登录时多次对 URL 采集造成的身份认证问题。实 验表明,该方法可以实时快速的获取微博信息,为舆情数据分析提供批量精准的数据 关键词:微博采集 网络爬虫 数据抓取 网页预判 中图法分类号: TP311.52 I ABSTRACT Todays society is in an era of information explosion, the rapid development of network information, people can whenever and wherever possible publication network news network, obviously already and our life blend together, is aff

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档