网站大量收购独家精品文档,联系QQ:2885784924

L省交通厅大数据项目V.ppt

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目录 * 1 2 3 架构规划 数据接入规划 硬件与网络规划 第十六页,共四十一页。 技术架构路线的选型存在 “开源”与“混搭”两种策略 可结合各省情况进行选择 策略一 策略二 开源模式(Hadoop) 坚持开源技术,自主掌握核心技术 混搭模式(Hadoop+MPP+传统数据仓库) 按场景选型,混搭架构 技术特征1 技术特征2 技术特征3 技术特征X Hadoop Mysql DB2/Oracle MPP 应用场景1 应用场景2 应用场景N …… 特点: 1,免费使用,拥有自主的知识产权,需要自建运维团队,有一定风险;现有人员需要技术转型,存在技术门槛 2,符合互联网精神,汇集众人智慧,正在逐步完善 3,Hadoop目前对于多维度数据自助分析、集市等应用场景下的表现逊于MPP 4,Hadoop适合大规模集群使用 特点: 1,需购买闭源的商业软件/运维服务; 2,需要根据不同应用场景搭配组合,形成优势互补; 3,应用场景并不是一成不变且异构集群将造成额外的数据冗余和数据同步,可能成为系统瓶颈 4,MPP在大规模集群(超过100个节点)下的可用性还有待验证 适用:自主掌握核心技术 适用:对海量数据的特定分析较多 第十七页,共四十一页。 大数据平台体系架构(Level 1) 第十八页,共四十一页。 借鉴互联网架构,引入成熟开源框架,基于x86平台构建分布式计算与存储平台,在保障系统可靠性(High-Availability)和可水平扩展(Scale-Out)基础上,同时大幅降低系统总拥有成本(TCO)。 技术选型及亮点 1. 采用Kafka消息队列框架,实现地理位置数据采集与解析,30s; 2. 采用近似实时的flume框架对接Kafka、实现位置信息实时采集入库Hadoop集群,周期性存储数据。 3. 在1个集群上承载批处理和流处理,基于hadoop资源管理可最大效率利用资源,实现消峰填谷,实现异构集群架构。 4. 在Hadoop基础上,引入Spark、Storm计算框架,通过Hive,mllib ,storm实现海量数据实时计算和历史数据的统计分析;引入Redis内存数据库,结合Storm,实现基于LBS的实时动态感知用户地理位置以及用户统计行为数据,深度挖掘用户价值。 5. 提供Open API(JDBC/ODBC/RestAPI),制定计算与存储资源共享与开放标准,结合丰富架构和运维经验,基于Open API构建OCI API,为后续数据资产运营奠定基础。 6,基于echarts的开源框架展现。 7,支持弹性扩展架构,可有效保护现有投资;同时,积极的引入nosql数据库hbase,利用分布式数据库优势实现数据快速访问,为未来技术替换缩减投资奠定基础。 技术架构设计(流计算场景,需求驱动) 第十九页,共四十一页。 技术架构 关键问题 解决方案 数据整合关键技术说明 1、功能: 通过大数据计算高效计算、数据挖掘、复杂事件处理、用户行为识别4大功能模块满足各类业务场景 批量数据运算以及实时计算的需求 2、技术 1)开源技术 全面采用开源技术节省成本。依赖于开源社区保障系统安全,社区的高速发展针对现 场应用可以快速更新补丁,并且可以根据业务场景的需要有针对性的选择相应技术 2)内存计算 引入SPARK实现基于内存的计算,通过灵活的scala语言实现小数据集的秒级查询,并于Hadoop完美结合 3) 统一框架 以hadoop技术为核心,基于统一资源调度框架Yarn,集成批处理( hadoop )、内存计算(spark)、实时计算(storm),机器学习(mllib),数据仓库(SQL on Hadoop),集群监控运维,数据可视化为一体,简化系统架构实现资源的统一管理。实现真正的一栈式大数据解决方案。 数据多样性、高效、高吞吐量、低延迟且支持高可靠性、水平扩展,弹性扩容 第二十页,共四十一页。 Hadoop如何做到数据容灾 * hadoop把文件拆成不同的小块,一个块多个副本,分别部署在不同的机器上,而只使用其中的一个块。 datanode定期向管理中心发心跳以确保可用,假如一台机器坏了,或硬盘坏了,调度中心会直接调用其中的一个副本块,同时快速随机选一台可用的机器复制副本。 因为走局域网带宽,可以灵活设置恢复时间,性能几乎不受任何影响 第二十一页,共四十一页。 基于Hadoop框架的开放与共享 共享和开放的目的是为了充分利用平台的存储与计算资源,通过开放的API接口调用,实现不同平台的数据交互,满足不同业务的需求。 对共享于开放带来的任务管理复杂、多租户资源争用以及安全问题,分别通过任务统一管理、调度,对象管理和用户配合管理以及用

文档评论(0)

虾虾教育 + 关注
官方认证
内容提供者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档