智慧旅游-大数据存储计算平台建设方案.docxVIP

下载本文档

0
0
约2.75万字
约 40页
2024-09-22 发布于河南
举报
版权申诉

智慧旅游-大数据存储计算平台建设方案.docx

1、本文档共40页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE20

智慧旅游

大数据存储计算平台建设方案

XXX科技有限公司

20XX年XX月XX日

TOC\h\z\u\t标题1,1,标题2,2,标题3,3一平台架构 2

1.1平台功能架构 2

1.2技术实现架构 2

二平台功能 3

2.1大数据接入 3

2.1.1平台设计 3

2.1.2技术实现 6

2.2大数据计算 22

2.2.1平台设计 22

2.2.2技术实现 30

2.2.3平台管理 34

2.3大数据存储 38

2.3.1平台设计 38

平台架构

平台功能架构

如图所示，大数据存储计算平台包括大数据接入层、大数据存储等、大数据计算层三大部分。

其中，大数据接入包括结构化数据采集工具、非结构化数据采集工具、系统日志采集工具、平台API接入、数据交换工具等，主要用户实现外部多源异构的大数据采集与大数据接入。

大数据存储包括HDFS、HBase、Hive、Redis、MySQL等集中式、分布式数据库部署，实现海量数据的动态、高效、可扩展存储。

大数据计算包括平台管理、工作流调度、平台配置与调度、离线数据计算、实时数据计算、离线数据和实时数据融合、机器学习、数据清洗、内存计算等部分，主要用于对海量数据进行数据清洗、离线/实时计算、机器学习、内存计算等计算支持及管理支持。

技术实现架构

大数据存储计算平台，采用ApacheHadoop全生态圈产品，保证所有的组件都是开源产品，九次方对于Hadoop全生态圈产品都进行了优化以及性能调优，对不同的硬件配置，不同的数据量大小，提供了性能最优的配置参数调整。

大数据存储计算平台提供数据接入层、大数据存储层、大数据计算层。

平台功能

大数据接入

平台设计

大数据存储计算平台的数据接入层，旨在完成各种异构数据源接入到大数据存储计算平台中。对于接入的数据源，包括但不限于关系型数据库、文本文件、压缩文件、非结构化数据、图片、音频、视频等，实现从不同应用系统数据抽取功能，有统一的数据标准和数据安全机制。

大数据存储计算平台支持分布式数据导入，对TB级别的数据，可以完整的导入全部数据，保证数据的不丢、不错、不重、不漏。同时可以生成数据导入日志，包括成功率、失败率、导入条数等等信息从而可以保证数据的完整性，同时为业务人员提供导入数据的日志报告，使得用户可以对整个导入导出工作进行详细的分析日志查询。

数据分类

根据数据类型主要是将数据划分为结构化数据和非结构化数据，分别采用传统的数据提取、转换、加载(ETL)工具和分布式并行处理来实现。

具体来讲，结构化数据可以存储在传统的关系型数据库中。关系型数据库在处理事务、及时响应、保证数据的一致性方面有天然的优势。

非结构化数据可以存储在新型的分布式存储中，比如Hadoop的HDFS。分布式存储在系统的横向扩展性、降低存储成本、提高文件读取速度方面有着独特的优势。

此外，就是结构化数据和非结构化数据之间的数据迁移。如果要将传统结构化数据，例如关系型数据库中的数据导入到分布式存储中，可以利用etl工具，先将关系型数据库的表结构导入分布式数据库，然后再向分布式数据库的表中导入结构化数据。

单一数据源可以利用etl工具，先将关系型数据库的表结构导入分布式数据库，或者使用大数据框架将数据导入HDFS，然后在进行清洗。多数据源通过分布式计算框架进行关联清洗，或数据库关联清洗。

实时数据接入管理

实时数据接入子系统设计为高可靠、高扩展、容易管理、支持客户扩展的数据采集系统，设计成一个分布式的管道架构，可以看作在数据源和目的地之间有一个Agent的网络，支持数据路由。传输的内容定义为事件（Event），事件由Headers（包含元数据，MetaData）和Payload组成。

Source模块负责接收输入数据，并将数据写入管道。Source模块支持HTTP，JMS，RPC，NetCat，Exec，SpoolingDirectory。其中Spooling支持监视一个目录或者文件，解析其中新生成的事件。Channel负责缓冲和存储，缓存从source到Sink的中间数据。可使用不同的配置来做Channel，例如内存，文件，JDBC等。使用内存性能高但不持久，有可能丢数据。使用文件更可靠，但性能不如内存。Sink负责从管道中读出数据并发给下一个Agent或者最终的目的地。Sink支持的不同目的地种类包括：HDFS，HBASE，Solr，ElasticSearch，File，Logger或者其它的Agent。

Source和Sink端都使用了transaction机制保证在数据传输中没有数据丢失。Source上的数据可以复制到不同的通道上。

您可能关注的文档

文档评论（0）

wangzhizhen + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

智慧旅游-大数据存储计算平台建设方案.docxVIP