- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从数据仓库到大数据,数据平台这25年是怎样进化的
我们先从两张图来看用户群体的区别。
用户群体之非互联网数据平台用户
企业的boss、运营的需求主要是依赖于报表、商业智能团队的数据分析师去各种分析与挖掘探索;
支撑这些人是ETL开发工程师、数据模型建模、数据架构师、报表设计人员 ,同时这些角色又是数据平台数据建设与使用方。
数据平台的技术框架与工具实现主要有技术架构师、JAVA 开发等。
用户面对是结构化生产系统数据源。
用户群体之互联网数据平台用户
互联网企业中员工年龄比非互联网企业的要年轻、受教育程度、对计算机的焦虑程度明显比传统企业要低、还偶遇其它各方面的缘故,导致了数据平台所面对用户群体与非互联网数据平台有所差异化;
互联网数据平台的使用与建设方是来自各方面的人,数据平台又是技术、数据产品推进建设的。
分析师参与数据平台直接建设比重增加。
原有的数据仓库开发与模型架构师的职能也从建设平台转为服务与咨询.
用户面对是数据源多样化,比如日志、生产数据库的数据、视频、音频等非结构化数据 。
从这用户群体角度来说这非互联网、互联网的数据平台用户差异性是非常明显,互联网数据平台中很多理论与名词都是从传统数据平台传递过来的,本文将会分别阐述非互联网、互联网数据平台区别。
非互联网时代
自从数据仓库发展起来到现在,基本上可以分为五个时代、四种架构
约在1991年前的全企业集成
1991年后的企业数据集成EDW时代
1994年-1996年的数据集市
1996-1997年左右的两个架构吵架
1998年-2001年左右的合并年代
数据仓库第一代架构
(开发时间2001-2002年)?
海尔集团的一个BI项目,架构的ETL 使用的是 微软的数据抽取加工工具 DTS,老人使用过微软的DTS 知道有哪些弊端,后便给出了几个DTS的截图。
功能:进销存分析、闭环控制分析、工贸分析等?
硬件环境:?
业务系统数据库:DB2 for Windows,SQL SERVER2000,ORACLE8I?
中央数据库服务器:4*EXON,2G,4*80GSCSI?
OLAP 服务器:2*PIV1GHZ,2G,2*40GSCSI?
开发环境:VISUAL BASIC,ASP,SQL SERVER 2000?
数据仓库第二代架构
这是上海通用汽车的一个数据平台,别看复杂,严格意义上来讲这是一套EDW的架构、在EDS数据仓库中采用的是准三范式的建模方式去构建的、大约涉及到十几种数据源,建模中按照某一条主线把数据都集成起来。
这个数据仓库平台计划三年的时间构建完毕,第一阶段计划构建统统一生性周期视图、客户统一视图的数据,完成对数据质量的摸底与部分实施为业务分析与信息共享提供基础平台。第二阶段是完成主要业务数据集成与视图统一,初步实现企业绩效管理。第三阶段全面完善企业级数据仓库,实现核心业务的数据统一。
数据集市架构
这个是国内某银行的一套数据集市,这是一个典型数据集市的架构模式、面向客户经理部门的考虑分析。
数据仓库混合性架构(Cif)
这是太平洋保险的数据平台,目前为止我认识的很多人都在该项目中呆过,当然是保险类的项目。
回过头来看该平台架构显然是一个混合型的数据仓库架构。它有混合数据仓库的经典结构,每一个层次功能定义的非常明确。
新一代架构OPDM 操作型数据集市(仓库)
OPDM大约是在2011年提出来的,严格上来说,OPDM 操作型数据集市(仓库)是实时数据仓库的一种,他更多的是面向操作型数据而非历史数据查询与分析。? ?
数据模型
”数据模型“ 这个词只要是跟数据沾边就会出现的一个词。
在构建过程中,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注 约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。
平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Data cleaning 指定清洗规则、为源数据与目标提供ETL mapping?(备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、 理清数据与数据之间的关系。
(备注:Data cleaning 是指的数据清洗 数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。
大家来看一张较
您可能关注的文档
- 2016必威体育精装版会计概念与目标复习提纲及真题.docx
- 2016年重庆市南开中学中考数学一模试卷(解析版).doc
- 2016注册会计师考试《经济法》选择题及答案.doc
- 2016泉州中考数学真题.doc
- 2016济南中考历下区英语二模.docx
- 2016济南中考历下区英语一模.doc
- 2016济南中考历城区英语二模.docx
- 2016济南师德试题答案4.doc
- 人民币汇率改革对我国外贸进出口企业影响的研究.doc
- 2016泸州公需科目考试.docx
- 五位一体教案教学教案设计.docx
- 思修与法基-教学教案分享.pptx
- 大学军事之《中国国防》题库分享.docx
- 2023版毛泽东思想和中国特色社会主义理论体系概论第五章-中国特色社会主义理论体系的形成发展.pdf
- 思修与法基 教学全案分享.docx
- 大学军事之《军事思想》题库分享.docx
- 《经济思想史》全套课件-国家级精品课程教案课件讲义分享.pdf
- 厦门大学国际金融全套资料(国家级精品课程)--全套课件.pdf
- 2023版毛泽东思想和中国特色社会主义理论体系概论第五章-中国特色社会主义理论体系的形成发展.docx
- 2023版毛泽东思想和中国特色社会主义理论体系概论第五章中国特色社会主义理论体系的形成发展分享.pdf
文档评论(0)