- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
姚光超-主题爬虫概要
主题爬虫 SY1106722 姚光超 运行结果 爬虫设置 流程 初始化种子和关键词 抓取 有抓取网页? 分析 大于阈值? 获取链接 加入队列 丢弃 结束 是 是 否 否 初始化种子和主题关键词 种子 选择一个和主题相关的种子网页,作为爬取的初始网页 主题 设置关于主题的关键词,然后在种子网页中爬取获取关键词的词频 主题相关度分析 URL队列 为了避免盲目查找无穷的网页,同时也是为了加快抓取速度,我们需要维护多个url队列: 等待优先队列 结果队列 不相关队列 (错误队列) URL流向图 等待队列 获取优先级最大的网页进行抓取 大于阈值? 获取网页链接 在完成队列中? 在抛弃队列中? 抛弃队列 是 否 是 完成队列 否 否 程序实现—检查网页 在检查网页的时候,我们需要忽略某些类型的网页: if (s.endsWith(.zip) || s.endsWith(.gz) || s.endsWith(.exe) || s.endsWith(.exe) || s.endsWith(.jpg) || s.endsWith(.png) || s.endsWith(.tar) || s.endsWith(.chm) || s.endsWith(.iso) || s.endsWith(.gif) || s.endsWith(.csv) || s.endsWith(.pdf) || s.endsWith(.doc)|| s.endsWith(.rar)) return false; else return true; 程序实现—线程 为了提高抓取速度,我们需要采用多线程,但是并不是线程越多越好。因为在程序中代码会访问共享的url队列会导致竞争,所以我们需要解决好同步的问题 程序实现—网页分析 统计关键词 为了求相关度,我们需要统计网页的关键词词频,程序中采用的方法是简单的字符串分割函数,对英文关键词效果不好 网站提取 如果一个网页相关度大于阈值,那么我们就需要提取该网页中的超链接,用到的正则表达式是: a\s*href=([^]*)[^]* 谢谢!
文档评论(0)