- 1、本文档共52页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据平台数据治理解决方案
2023年04月
总体设计
数据采集汇聚
大数据处理所需要汇集的各个业务部门、社会企事业单位相关数据,依托于共享交换平台体系,以库表、服务接口、文件三种方式为核心,实现人卫资数据资源的汇集接入。
信息采集体系实现部门与部门之间、部门与大数据中心之间的数据采集,负责企业数据从源头采集的问题。根据多年的经验总结,全国普遍存在以库表、文件、服务等三种方式提供数据的情况,与之对应的存在服务接口、库表交换、文件交换等三种信息采集交换的实现方式。
通过库表、服务、文件等方式采集的信息资源,如果通过共享交换平台交换至数据需求的部门,这属于“快加工、快共享”,此过程中未对数据进行加工清洗。
通过库表、服务、文件等方式采集的信息资源,如果通过共享交换平台交换至大数据中心,并进行数据的清洗、整合、质量处理、标准处理等步骤和流程后,形成归集库、主题库等,这属于“慢加工、慢共享”。如图所示:
图 - 采集方式图
图 - 网络拓补图
数据集成服务
由于信息资源池需要从相互独立的多个业务系统中抽取数据,这些业务系统并没有经过顶层设计和统筹规划,他们之间的数据之间必然存在不完整、重复、错误、不一致的问题。为解决上述数据问题,需要提供数据抽取、加载、转换、清洗融合等系列服务,在把这些业务系统数据进行全面的质量稽查、修复、关联和匹配融合。
数据架构设计
以“数用分离,智能驱动”做为数据中枢架构设计核心,按照分级分类建库的要求,将数据从各数据源接入以后,进行统一信息资源规划,建设大数据处理资源池的数据架构体系,形成包含归集库、主题库的大数据资源池,为业务主体管理各类应用场景提供数据支撑服务。
图 - 数据架构图
数据主要来源于各社里业务系统经过梳理得出的数据资源。社里业务系统与数据仓库之间通过备份库及相应平台系统连接,进行数据汇聚归集、清洗融合。
通过相应数据平台系统,将数据源结构化、半结构化、非结构化数据以实时采集或定时批量抽取的的方式进行采集,将数据存储至数据仓库,形成原始归集库,原始归集库保持与源数据一致,不做任何修改。
由于原始归集库数据来源于不同社里业务系统,数据来源多且复杂,数据结构不同,无法直接使用,因此需要对原始归集库中数据进行集成治理,形成标准统一、可用数据,且进行数据融合,最终形成中心库,需要保证数据的完整性、一致性、正确性、合规性与关联性,实现数据一数一源。
基于大数据的应用数据需求,通过数据需求者从中心库中抽取数据进行专题数据库的建库,形成业务主题库,支撑大数据的各类应用。
数据仓库设计
数据仓库采用先进的分层设计方法,将数据按照功能属性进行划分,贴源层、标准层、原子层、主题层、安全层,是以 “三融五跨”(五跨:跨地域、跨层级、跨部门、跨系统、跨业务,三融:数据融合、业务融合与技术融合)作为指导思想而产生的业务逻辑数据模型。数据仓库设计如下图:数据仓库设计。
总体规划为5层架构,分别为“贴源层、标准层、原子层、主题层、安全层”。
图 - 规划图
图 - 数仓关系架构图
贴源层
贴源层是数据仓库的数据入口,其数据表模型与源系统完全一致,数据不会做任何处理。
贴源层的主要作用是:
1) 数据归档,归集各业务单位数据资源。贴源层可保存相当长时间周期的数据,在存储空间允许的情况下,甚至可以保留永久的历史数据。
2) 防止后端数据处理出错时,再次执行时反复重新抽取数据会给业务库带来不必要的冲击。
3) 防止二次抽取数据时,因为源系统的更新导致丢失当时数据的快照;
4) 归集存储各业务单位数据支撑后续应有发展、数据分析等建设。
整合的三种数据分类:结构化数据(表)、半结构化数据(JSON)、非结构化数据(图片、视频)。
标准层
标准层的数据保存了源系统数据的所有信息,并且在此基础上对源头数据做了转换和标准映射处理。
标准层的主要作用是:
将不干净的杂质数据清洗干净,如姓名中含有的空白字符或数字清洗掉。
将不合标准的数据翻译成符合标准的数据。
原子层
原子层是数据仓库中的最具有设计元素的层,也是最核心的层。它以某种形式组织或归类分散在各个源表中的信息项,并结合了源数据、业务需求,从数据和业务需求两个方向的考虑来设计,是具有高度抽象性、原子性等特点的层。
原子层的主要作用是:
1) 通过具体形式的组织和归类,有效的避免了数据冗余、数据缺失等情况带来的数据不一致问题;
2) 由于数据具有高度原子性,整个库的可维护性大大提高,信息能非常方便地溯源;
3) 构建相关维表数据。
整合层
整合层是将原子层的多源数据通过一定的规则进行合并,最终整合成唯一的信息。合并规则需要经过反复验证,只有在若干规则中准确性最高的规则,才会作为最优规则。
整合层的主要作用是:消除数据的多义性,保证数据具有唯一准确性。
主题层
主题层是应用基础层
您可能关注的文档
最近下载
- JM02藕粉色欧美美女时尚风ppt模板.pptx
- 2024广西北部湾国际港务集团有限公司秋季招聘501人笔试备考试题及答案解析.docx
- 水平三足球大单元教学设计 (2).docx VIP
- 小红书《欢迎光临我的家》IP招商通案240407.pdf
- 关于未来战斗机发展的若干讨论_杨伟.pdf VIP
- 金黄色葡萄球菌实验活动风险评估报告.pdf VIP
- 2024年河北省中考地理试卷(含答案与解析).pdf VIP
- 水平三(六年级)体育《足球(18课时)》大单元教学计划.docx VIP
- 1.关于诗词大会题库(含答案).docx
- 201708南昌铁路局基建项目营业线施工计划申报事宜参考资料(摘自相关文件,仅供参考,不作为依据).doc
文档评论(0)