智慧旅游-大数据存储计算平台建设方案.docxVIP

智慧旅游-大数据存储计算平台建设方案.docx

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PAGE20

智慧旅游

大数据存储计算平台建设方案

XXX科技有限公司

20XX年XX月XX日

目录

TOC\h\z\u\t标题1,1,标题2,2,标题3,3一平台架构 2

1.1平台功能架构 2

1.2技术实现架构 2

二平台功能 3

2.1大数据接入 3

2.1.1平台设计 3

2.1.2技术实现 6

2.2大数据计算 22

2.2.1平台设计 22

2.2.2技术实现 30

2.2.3平台管理 34

2.3大数据存储 38

2.3.1平台设计 38

平台架构

平台功能架构

如图所示,大数据存储计算平台包括大数据接入层、大数据存储等、大数据计算层三大部分。

其中,大数据接入包括结构化数据采集工具、非结构化数据采集工具、系统日志采集工具、平台API接入、数据交换工具等,主要用户实现外部多源异构的大数据采集与大数据接入。

大数据存储包括HDFS、HBase、Hive、Redis、MySQL等集中式、分布式数据库部署,实现海量数据的动态、高效、可扩展存储。

大数据计算包括平台管理、工作流调度、平台配置与调度、离线数据计算、实时数据计算、离线数据和实时数据融合、机器学习、数据清洗、内存计算等部分,主要用于对海量数据进行数据清洗、离线/实时计算、机器学习、内存计算等计算支持及管理支持。

技术实现架构

大数据存储计算平台,采用ApacheHadoop全生态圈产品,保证所有的组件都是开源产品,九次方对于Hadoop全生态圈产品都进行了优化以及性能调优,对不同的硬件配置,不同的数据量大小,提供了性能最优的配置参数调整。

大数据存储计算平台提供数据接入层、大数据存储层、大数据计算层。

平台功能

大数据接入

平台设计

大数据存储计算平台的数据接入层,旨在完成各种异构数据源接入到大数据存储计算平台中。对于接入的数据源,包括但不限于关系型数据库、文本文件、压缩文件、非结构化数据、图片、音频、视频等,实现从不同应用系统数据抽取功能,有统一的数据标准和数据安全机制。

大数据存储计算平台支持分布式数据导入,对TB级别的数据,可以完整的导入全部数据,保证数据的不丢、不错、不重、不漏。同时可以生成数据导入日志,包括成功率、失败率、导入条数等等信息从而可以保证数据的完整性,同时为业务人员提供导入数据的日志报告,使得用户可以对整个导入导出工作进行详细的分析日志查询。

数据分类

根据数据类型主要是将数据划分为结构化数据和非结构化数据,分别采用传统的数据提取、转换、加载(ETL)工具和分布式并行处理来实现。

具体来讲,结构化数据可以存储在传统的关系型数据库中。关系型数据库在处理事务、及时响应、保证数据的一致性方面有天然的优势。

非结构化数据可以存储在新型的分布式存储中,比如Hadoop的HDFS。分布式存储在系统的横向扩展性、降低存储成本、提高文件读取速度方面有着独特的优势。

此外,就是结构化数据和非结构化数据之间的数据迁移。如果要将传统结构化数据,例如关系型数据库中的数据导入到分布式存储中,可以利用etl工具,先将关系型数据库的表结构导入分布式数据库,然后再向分布式数据库的表中导入结构化数据。

单一数据源可以利用etl工具,先将关系型数据库的表结构导入分布式数据库,或者使用大数据框架将数据导入HDFS,然后在进行清洗。多数据源通过分布式计算框架进行关联清洗,或数据库关联清洗。

实时数据接入管理

实时数据接入子系统设计为高可靠、高扩展、容易管理、支持客户扩展的数据采集系统,设计成一个分布式的管道架构,可以看作在数据源和目的地之间有一个Agent的网络,支持数据路由。传输的内容定义为事件(Event),事件由Headers(包含元数据,MetaData)和Payload组成。

Source模块负责接收输入数据,并将数据写入管道。Source模块支持HTTP,JMS,RPC,NetCat,Exec,SpoolingDirectory。其中Spooling支持监视一个目录或者文件,解析其中新生成的事件。Channel负责缓冲和存储,缓存从source到Sink的中间数据。可使用不同的配置来做Channel,例如内存,文件,JDBC等。使用内存性能高但不持久,有可能丢数据。使用文件更可靠,但性能不如内存。Sink负责从管道中读出数据并发给下一个Agent或者最终的目的地。Sink支持的不同目的地种类包括:HDFS,HBASE,Solr,ElasticSearch,File,Logger或者其它的Agent。

Source和Sink端都使用了transaction机制保证在数据传输中没有数据丢失。Source上的数据可以复制到不同的通道上。

文档评论(0)

wangzhizhen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档