采集系统架构.pptx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据采集系统架构; 利用现有资源大幅提高采集效率,4x是低限。 高可用,高负载 利用开源系统提高开发效率。 简单,且易部署。 减轻系统维护工作量。 最大限度提高效率,用效率掩盖一切;系统架构描述-层级;系统架构描述—流程;由于采集URL为动态变化对持久化要求并不高,所以将除初始化URL全部缓存到内存中,利用redis key来做排重。 使用开源项目redis做为URL存储,提高读取和排重效率。 尽量少存储信息URL相关信息,提高内存使用效率。 100万/GB, 32GB内存约可以缓存3200万URL,满足现有采集需求我们大概需要 128GB内存 相关资料 ;管理URLCache 实现高可用,在不同的urlCache间尽量平均分配存储和备份。 实现部分采集策略,通过MQ实现采集任务分发。 ;系统架构描述-HAProxy;消息队列 让采集任务从push的过程变成pull过程,极大简化了流程的开发难度,让采集任务负载均衡更可靠。 可选方案:ActiveMQ, RabbitMQ, ZeroMQ… 相关资料 ;爬虫: 监听MQ, 从中获取任务消息。 根据任务消息,采集相关URL(后期不仅仅是采集任务,可能有截图任务,数据处理任务,数据导出、导入任务…,当然这并不全是spider要做的事)。 策略化,我们可以根据情况定制采集策略,比如:每spider只连续采集相同域下5个url,又比如:苏宁的地址每次仅连续集3个地址,下次采集必须间隔10秒。事时策略可以让我们采集效率最大化。 ;数据存储: redis+HBASE; 可采用,主从结构实现读写分离。 ;不是美妹,是Monitor+Manager 监控和管理系统,这将是整个项目中开发工作量最大的部分,可视化编辑和管理,策略管理,服务器状态检测,spider, MQ, haproxy管理…..MM我们可以一步一步来。 服务器及spider监控,管理。 这个做为第一步。 MQ监控,管理(初期可以使用自带软件进行监控)。 系统采集情况报告(这个初期可以查库,第三步)。 服务资源情况报告(这个做为第二步)。 实时策略管理(初期通过配置文件的形式来实现) … ;系统架构描述-开发部署方案;系统架构描述-服务器架构;系统架构描述-开发模式

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档