- 1、本文档共40页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
PAGE20
智慧旅游
大数据存储计算平台建设方案
XXX科技有限公司
20XX年XX月XX日
目录
TOC\h\z\u\t标题1,1,标题2,2,标题3,3一平台架构 2
1.1平台功能架构 2
1.2技术实现架构 2
二平台功能 3
2.1大数据接入 3
2.1.1平台设计 3
2.1.2技术实现 6
2.2大数据计算 22
2.2.1平台设计 22
2.2.2技术实现 30
2.2.3平台管理 34
2.3大数据存储 38
2.3.1平台设计 38
平台架构
平台功能架构
如图所示,大数据存储计算平台包括大数据接入层、大数据存储等、大数据计算层三大部分。
其中,大数据接入包括结构化数据采集工具、非结构化数据采集工具、系统日志采集工具、平台API接入、数据交换工具等,主要用户实现外部多源异构的大数据采集与大数据接入。
大数据存储包括HDFS、HBase、Hive、Redis、MySQL等集中式、分布式数据库部署,实现海量数据的动态、高效、可扩展存储。
大数据计算包括平台管理、工作流调度、平台配置与调度、离线数据计算、实时数据计算、离线数据和实时数据融合、机器学习、数据清洗、内存计算等部分,主要用于对海量数据进行数据清洗、离线/实时计算、机器学习、内存计算等计算支持及管理支持。
技术实现架构
大数据存储计算平台,采用ApacheHadoop全生态圈产品,保证所有的组件都是开源产品,九次方对于Hadoop全生态圈产品都进行了优化以及性能调优,对不同的硬件配置,不同的数据量大小,提供了性能最优的配置参数调整。
大数据存储计算平台提供数据接入层、大数据存储层、大数据计算层。
平台功能
大数据接入
平台设计
大数据存储计算平台的数据接入层,旨在完成各种异构数据源接入到大数据存储计算平台中。对于接入的数据源,包括但不限于关系型数据库、文本文件、压缩文件、非结构化数据、图片、音频、视频等,实现从不同应用系统数据抽取功能,有统一的数据标准和数据安全机制。
大数据存储计算平台支持分布式数据导入,对TB级别的数据,可以完整的导入全部数据,保证数据的不丢、不错、不重、不漏。同时可以生成数据导入日志,包括成功率、失败率、导入条数等等信息从而可以保证数据的完整性,同时为业务人员提供导入数据的日志报告,使得用户可以对整个导入导出工作进行详细的分析日志查询。
数据分类
根据数据类型主要是将数据划分为结构化数据和非结构化数据,分别采用传统的数据提取、转换、加载(ETL)工具和分布式并行处理来实现。
具体来讲,结构化数据可以存储在传统的关系型数据库中。关系型数据库在处理事务、及时响应、保证数据的一致性方面有天然的优势。
非结构化数据可以存储在新型的分布式存储中,比如Hadoop的HDFS。分布式存储在系统的横向扩展性、降低存储成本、提高文件读取速度方面有着独特的优势。
此外,就是结构化数据和非结构化数据之间的数据迁移。如果要将传统结构化数据,例如关系型数据库中的数据导入到分布式存储中,可以利用etl工具,先将关系型数据库的表结构导入分布式数据库,然后再向分布式数据库的表中导入结构化数据。
单一数据源可以利用etl工具,先将关系型数据库的表结构导入分布式数据库,或者使用大数据框架将数据导入HDFS,然后在进行清洗。多数据源通过分布式计算框架进行关联清洗,或数据库关联清洗。
实时数据接入管理
实时数据接入子系统设计为高可靠、高扩展、容易管理、支持客户扩展的数据采集系统,设计成一个分布式的管道架构,可以看作在数据源和目的地之间有一个Agent的网络,支持数据路由。传输的内容定义为事件(Event),事件由Headers(包含元数据,MetaData)和Payload组成。
Source模块负责接收输入数据,并将数据写入管道。Source模块支持HTTP,JMS,RPC,NetCat,Exec,SpoolingDirectory。其中Spooling支持监视一个目录或者文件,解析其中新生成的事件。Channel负责缓冲和存储,缓存从source到Sink的中间数据。可使用不同的配置来做Channel,例如内存,文件,JDBC等。使用内存性能高但不持久,有可能丢数据。使用文件更可靠,但性能不如内存。Sink负责从管道中读出数据并发给下一个Agent或者最终的目的地。Sink支持的不同目的地种类包括:HDFS,HBASE,Solr,ElasticSearch,File,Logger或者其它的Agent。
Source和Sink端都使用了transaction机制保证在数据传输中没有数据丢失。Source上的数据可以复制到不同的通道上。
您可能关注的文档
最近下载
- 2.3二次函数与一元二次方程、不等式(第1课时)课件(共19张PPT)2021-2022学年高一上学期人教A版(2019)数学必修第一册.pptx
- 5G赛前复习练习卷含答案.doc VIP
- 5G赛前复习复习测试题.doc VIP
- 职业技术学院数控技术专业《数控编程与操作》课程标准.docx
- 八年级数学上册专题12.1 全等三角形九大基本模型 专项讲练(解析版).docx VIP
- 《中华人民共和国烟草专卖法》知识测试卷含答案.doc VIP
- S7-1500Web服务器功能手册.pdf VIP
- Scratch圭小校本教材.pdf
- 5G赛前复习练习卷含答案(一).doc VIP
- 铝的阳极氧化和着色(华南师范大学物化实验).pdf
文档评论(0)