- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
?
?
社保数据集成系统ETL研究与开发
?
?
李宏智
摘要:该文主要通过研究社保系统数据集成中使用的ETL方法,并结合同煤集团社会保险管理信息系统的现状,提出了采用数据仓库法实现同煤集团社保系统的数据集成。重点介绍了社保系统数据集成中ETL的开发。经过验证能够建立统一的、完整的、高质量的社保系统数据仓库。
关键词:数据仓库;数据集成;ETL;社会保险
1ETL技术
1.1ETL技术介绍
ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程,它是用来构建数据仓库,用户首先抽取数据,然后经过清洗和转换,最后加载到数据仓库中去。在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面。
1.2ETL技术过程
1.2.1数据抽取
首先,做好准备工作。弄清同煤集团社会保险系统包含多少业务管理信息系统,各个管理系统的DBMS类型。然后,可以用数据库链接或ODBC的方式建立链接。从数据库中抽取数据一般有全量抽取和增量抽取。
1.2.2数据转换
这个过程包括了数据清洗和数据转换两个步骤。数据清洗包括检查数据一致性,处理无效值和缺失值等。对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,发给用户,修改以后再进行数据转换。数据转换将不同业务系统的相同类型的数据统一,用一个相同的编码表示。
1.2.3数据装载
数据装载是指将数据放到数据仓库中去。数据装载有四种装载模式:完全刷新,镜像增量,事件增量,镜像比较。
2ETL工具介绍
2.1Kettle
Kettle是国外开源的ETL工具,可以在Window、Unix等系统下运行,目前包括4个产品:Spoon、Pan、CHEF、Kitchen。SPOON允许你通过图形界面来设计转换过程,PAN允许你批量运行转换,CHEF允许你创建任务,KITCHEN允许你批量设计的任务。
2.2DataStage
DataStage能自动对多种数据源的数据抽取、转换和维护,并将数据仓库集成的工具。是一个基于C/S的软件,必须安装服务器和客户端软件,它的所有开发工作都是在一个工程中。在DataStage工具面板上有很多组件。Datastage包含四大部件:Administrator、Manager、Designer、Director。
2.3PowerCenter
PowerCenter是Informatica公司开发的ETL工具。此产品可以提供企业部门如XML、网站日志、关系型数据集成。PowerCenter在内存中执行所有的数据抽取转换、整合、装载的功能。
2.4OWB和ODI
OWB是Oracle的一个综合工具,它提供对ETL、数据质量、数据审计,以及数据和元数据的整个生命周期的管理,适用于Oracle数据库的ETL工具,OWB11g版包含在每个Oracle数据库11g版安装中。ODI和OWB一样,都是ETL工具,和OWB相比,它支持异构数据,可以和SOA集成。
2.5SSIS
SSIS是MicrosoftSQLServer2012IntegrationServices的简称。SSIS的体系结构主要由四部分组成:IntegrationServices服务、IntegrationServices对象模型、IntegrationServices运行时和运行时可执行文件以及封装数據流引擎和数据流组件的数据流任务。
2.6BeeLoad
Beeload是由北京灵蜂纵横软件有限公司研发的一款ETL工具,可以通过简单直观的图形操作界面,帮助使用者快速定义ETL规则,使数据处理工作变得简单方便。
3实现方法
3.1同构冲突的解决
主要完成SQLserver2012数据库和oracle10g中各自所存储的社保相关数据的初步清理和转换,解决数据的冗余、各表之间字段命名冲突,如同名异义、异名同义等,为最终数据仓库的建立提供初始数据源。
3.1.1数据清理
1)冗余数据的清理:SELECTDISTINCT*INTO新的分析表名FROM有重复行数据的原始表名例如:selectdistinct*into基本信息仓库from基本信息表
2)无用字段的清理:ALTERTABLE表名DROPCOLUMN无用列名1,无用列名2,…
例如:altertable个人基本信息表dropcolumnBCC016(体重),BCC017(身高)
3)空值的清理:UPDATE表名SET列名=0WHERE列名ISNULL
UPDATE表名SET列名=WHERE列名ISNULL
4)不规则数据的清理:在操作时数据录入人员在录入数据时,不小心在实际数据之前输入了一个或多个空格,这些不起眼的空
您可能关注的文档
- 群众文化艺术团队孵化模式的创建研究.docx
- 综合护理在高血压合并冠心病患者中的应用价值.docx
- 线性回归分析在出口危险化学品及其包装质量趋势预测中的应用.docx
- 粉煤灰掺量对氯盐环境下高性能混凝土服役寿命的影响.docx
- 移动新业务客户细分方法研究.docx
- 研究环境监测在环保验收监测中的作用.docx
- 盐酸度洛西汀与加巴喷丁治疗糖尿病周围神经痛的临床效果比较观察.docx
- 电视剧《红高粱》中戴九莲形象分析.docx
- 电力营销计量改造中的问题及应对方案研究.docx
- 生态移民迁移自愿性的影响研究.docx
- 上海市某中学2024-2025学年九年级上学期物理期中考试试卷(含答案).pdf
- 2024年上半年安全生产工作总结(31篇).pdf
- 2024年人教版小学语文五年级下册教学计划.pdf
- 2025年中考数学思想方法复习【猜想归纳】图案规律中的猜想归纳思想(解析版).pdf
- 2025年中考数学思想方法复习【分类讨论】方程(组)和函数中的分类讨论(原卷版).pdf
- 2025年中考数学思想方法复习【新定义问题】数与式中的新定义问题(解析版).pdf
- 2025年中考数学思想方法复习【新定义问题】四边形中的新定义问题(原卷版).pdf
- 2025年中考数学思想方法复习【新定义问题】方程与不等式中的新定义问题(解析版).pdf
- 2025年中考数学思想方法复习【新定义问题】圆中的新定义问题(解析版).pdf
- 2025年中考数学思想方法复习【转化思想】方程中的转化思想(解析版).pdf
文档评论(0)