网络爬虫系统规划方案.docxVIP

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

网络爬虫系统设计方案

引言

编写目的

网络爬虫系统必威体育精装版一套网络爬虫系统,本设计手册是针对该系统进行描述的基本手册,旨在描述该爬虫系统的基本架构和组件。

项目背景

网络爬虫系统是设计为了配合公司大数据业务发展的需求,解决大数据业务的数据采集问题而开发的一套系统。

系统的主要功能是爬取上市公司的财务报表数据、上市公司的重大公告数据、上市公司的年报数据和国家关于上市公司的政策法规数据。

总体设计

网络爬虫系统总体上采取组件化设计方法,爬虫系统架构设计如下图所示:

2.1需求概要

信息同步子系统对接用户原有第三方数据源,定期从用户第三方数据源中同步省属企业数据,内部财务结算数据。该子系统的工作流程如下图所示:

大数据存储子系统负责为网络爬虫系统提供针对海量多元数据的快速存储方案和相应的智能管理服务。该系统统一提供对包括结构化关系型数据、半结构化以及非结构化非关系型数据和文件(块)的底层存储方案设计,保证为不同类别文件的高速存储和实时交互提供稳健的实现环境,具有良好的容错机制和灾难恢复机制;此外,该系统为存储数据提供智能一体化的管理服务,除了对文档记录进行增加、删除、查询和修改等日常维护操作外,该系统实现对海量文档的动态信息提取,并实现基于元数据、关键词、段落、文档以及语义等高级条件的精准和模糊检索服务。此外,该系统可根据用户定义的需求对海量数据进行自动可视化和报表生成。

常见的多元数据如下表所示,其中大数据存储子系统存储的结构化数据、半结构化数据以及非结构化数据(块数据)是面向检索和计算的,提供快速、高效的内容检索以及包含的数据的计算、统计、分析和挖掘等处理;而大数据存储子系统的非结构化数据(文档数据)是面向简单检索的,主要提供文件粒度的内容的读取和写入,即持久化和反持久化。

2.2数据类型

类型

描述

结构化数据

具有固定结构的数据,包括xml文档以及来自各类关系型数据库管理系统的导出数据等

半结构化数据

不具备严格模式的数据,包括“键-值”对类型数据等

非结构化数据

文本文件、富文本文件

txt、rtf

办公文档、文字输入文件

wps、doc、docx

电子表单、表格数据

xls、xlsx

演示文档文件

ppt、pptx

外部获取的各类参阅文件

pdf

网页文件

Html、jsp、asp、php

扫描件、图片文件

jpg、bmp、png

音频文件、视频文件

mp3、avi、mpg

其他文件数据和块数据

2.3数据存储

(一)结构化数据存储

功能

描述

基本功能

库管理

支持关系数据库的创建、删除

表管理

支持数据表的创建、删除和模式修改

记录管理

支持数据记录的创建、删除和修改操作

记录检索

支持数据记录定位、结构化查询、遍历数据库等操作

索引管理

支持对数据域进行索引创建、删除及修改

智能管理

元数据

支持对结构化数据中提取的元数据进行存储和交互,元数据属性包括时间、空间和数据大小等

分析结果

支持对结构化数据处理分析的结果进行序列化存储,包括数据分析模型、数据预测模型、训练后的分类器以及数据内部存在的关联关系等

可视化

支持对结构化数据降维结果和分析结果进行记忆,并根据实际需求对记录进行提取利用

(二)非结构化数据存储

功能

描述

基本功能

记录管理

支持数据记录的创建、删除和修改操作

记录检索

支持数据记录定位、结构化查询、遍历数据库等操作

索引管理

支持对数据域进行索引创建、删除及修改

智能管理

元数据

支持对结构化数据中提取的元数据进行存储和交互,元数据属性包括时间、空间、数据大小,以及更丰富的作者、机构名称、议题等

分析结果

支持对非结构化数据处理分析的结果进行序列化存储,包括主题模型、文本分析模型、内容检测模型、训练后的分类器以及文档间命名实体存在的关联关系等

可视化

支持对非结构化数据降维结果和分析结果进行记忆,并根据实际需求对记录进行提取利用

(三)块存储

功能

描述

分区管理(创建、删除、移动、修改)

支持创建、删除、移动、修改块分区

块管理(创建、读取、删除、修改)

支持创建、读取、删除、修改块文件

(四)分布式文件存储

功能

描述

目录管理(创建、删除、修改、枚举)

支持创建、删除、修改、枚举文件目录

文件管理(创建、删除、修改、读取、枚举)

支持创建、删除、修改、读取、枚举文件

大数据存储子系统的核心流程如下图所示:

数据存储层负责海量结构化数据、半结构化数据和非结构化数据的存储,采用了关系数据库、分布式NoSQL数据库、分布式海量数据存储。主要通过四个接口与外部系统对接,分别是:

(一)JDBC/ODBC等SQL标准接口。

(二)NOSQL接口。

(三)块数据存取接口。

(四)文件存取标准接口,如NFS、POSIX等。

大数据存储层为系统的海量数据提供存储服务,与大数据支撑子系统通过存储接口进行交

文档评论(0)

159****3029 + 关注
实名认证
文档贡献者

赶紧 下载啊啊啊啊

1亿VIP精品文档

相关文档