- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
一份全面的企业数据产品选型对比(含数仓、报表、BI、中台、数据治理)
编辑导语:在如今这个数据化时代,数据对于个人和企业来说,其重要性都不可小觑。因此,有不少企业强化了数据工作,加强企业数据建设。接下来,本文作者整理了一份超全面的企业数据产品的选型对比,希望对大家有所帮助。
前言:
这个从上至下都在强调数字化转型的时代,越来越多公司重视数据,也越来越多的企业有数据建设的需求。
企业无论做任何数据工作,必然要有一定的信息化基础,也要有数据化建设的基础,少不了数据平台、数据应用工具,数据管理工具等。
关于企业数据建设这块,本人从事了近7年,从技术到项目管理,做过乙方也做过甲方,也有多年和各乙方厂商打交道的经验,遂来分享选型“内幕”。
涉及到的产品有:数仓、大数据平台、报表、BI、数据中台、数据治理等。
一、数仓
数据仓库算是一个解决方案,视企业需求有不同架构(传统数仓、数据集市、大数据平台等),架构下有很多分层和组件,比起工具更需要架构师能力,具体原理就不讲了。
关于数仓的选型主要涉及:数据存储方案、ETL、还有前端应用。
底层的数据仓库服务器通常是一个关系数据库系统,常用的方案有Oracle、db2、还有greenplum、teredata等数据仓库专业解决方案。
传统的关系型数据库有:oracle、mysql、DB2。
大规模并行处理数据库:Vertica、Teradata(商业)、Greenplum(开源)。
Teradata老江湖了,银行业使用较多,但成本也是真的贵,目前我们做项目较多的是用Greenplum,算是业界最快和最高性价比的高端数据仓库解决方案,Greenplum是基于PostgreSQL的,于2015年开源。
我知道的国内四大行有3家在用,5大物流公司有4家在用,不少公司在从Teradata迁移到GP。
大数据平台主流的是:工具,kettle、Tablend和Pentend:基于Eclipse,具有很好的扩展性、稳定性以及可定制化(可以自己开发eclipse插件),并且服从Eclipse标准(如文件目录结构都是程序员熟悉的结构)。
Talend具有很好的嵌入性,因为它生成的是Java代码,这些代码以很好的和其他系统结合在一起,这就要求使用者会java。
Pente是Pentend相比,它的扩展性较差。由于它很难扩展,所以在社区中可用的组件就比较少。
前端应用工具主要就是报表、BI和数据挖掘,前两者的选型后面会细讲。
二、大数据平台
2013年左右,eau、powerBI这俩工具型产品火了起来,有很多拥护的个人使用者,上手确实好用,但是在企业级应用场景,要看性能和并发成本,就见仁见智了。
不过用BI,就不是2、3个人的事情了,必须得建数仓,然后再做各种可视化、多维分析等。所以就得数仓工程师、ETL工程师、BI工程师等岗位。
当然,你要是牛,一个人全兼了也没问题,很多单位招人也确实要兼做。
中大型公司,有好几个业务系统的,建议采购BI系统,什么数仓、指标体系、固定报表、多维分析、数据可视化就都有了。建设期得多几个人,建好之后就很舒服了,业务固定的话,留两个人维护就OK了。
五、数据中台
“中台”的概念就是阿里推广开的。
阿里从SuperCell学过来这一套,后化为阿里内功后,再向外推广。“数据中台”也是那时候一起推广出来的,所以主要的厂商都是阿里系的人出来创业的公司。
袋鼠云、数澜、奇点云都是阿里的P9出来创办的公司,技术都差不多。
袋鼠云是阿里DBA团队出来的,比较鸡贼,牢牢的跟阿里绑死,阿里接单,袋鼠云干活,跟在阿里后面;
数澜是阿里产品团队出来的,产品设计的比较ok,宣传的也很不错,业务开展的风生水起;
奇点云是阿里仓和数加团队出来的,似宣传的没上面两个强,接触不多(数加是阿里自己的产品)。
如果你们公司业务复杂,数据量巨大,关键是业务方面有多个客户应用场景,数据交互效率低,需要大量的客户数据价值发现,需求也很紧迫,那可以考虑研究下中台方案。
六、最后总结
报表平台解决固定报表、自动化报表,支持打印和计算等大批量批处理作业,公司有需求直接用帆软一类的平台解决,配1、2个报表工程师能搞定了;
BI平台是在报表平台上增加解决多维分析、自助查询报表的能力,需要数仓团队做底层数据支撑,需要BI工程师设定各种度量、维度,做多维分析报表;不用一张张的做固定报表了;
大数据平台是在BI平台基础上,解决大数据量的存储、计算、实时计算的问题;无需关注底层的海量数据存储、计算、实时计算等问题;需要增加大数据工程师进行集群的维护,基于大数据平台的各种开发工作;
数据中台是在大数据平台基础上,提供ID打通、统一模型、统一服务的能力,附加标签工厂、用户分析等偏互联网属性的功能。人员需
您可能关注的文档
- 车载OTA-技术研究-.pdf
- 公司竞聘班长演讲稿5篇.docx
- 压力性损伤预防质控检查核查表.doc
- 《三角形的面积》教学设计.doc
- 垃圾填埋场渗滤液中重金属的迁移问题研究.pdf
- 小学一年级开学第一课开场白.docx
- 四川重点项目-工业园区污水处理厂建设项目可行性研究报告(撰写大纲).doc
- 课程改革与教学方式.doc
- 临床路径和单病种护理质量控制制度.doc
- 校园环境卫生检查评分标准表.doc
- 2018年北京市西城区初二(下)期末生物试卷含答案.docx
- 2018年北京房山初二(上)期中生物试卷含答案.pdf
- 2018年北京四中初二(上)期中生物试卷含答案.pdf
- 2018年北京房山初二(上)期中生物试卷含答案.doc
- 2018年北京长辛店一中初三(上)期中生物试卷含答案.pdf
- 2018年北京初二二模生物试卷汇编:生物与环境及答案.docx
- 2018年北京初二二模生物试卷汇编:人和其他生物的生殖.pdf
- 2018年北京市石景山区初二(下)期末生物试卷含答案.pdf
- 2018年北京市东城区初二(下)期末生物试卷含答案.docx
- 2018年北京临川学校初二(下)期末生物试卷含答案.docx
文档评论(0)