- 1、本文档共43页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
提高数据仓库中数据质量的研究毕业论文
目 录
1. 绪论 1
1.1 研究背景 1
1.2 2
1.3 本文的主要研究内容和内容组织 3
2. 数据仓库以及ETL 4
2.1 数据仓库(Data WareHouse, DW) 4
2.2 ETL(Extract, Transform, loading) 6
2.2.1 ETL简介 6
2.2.2 ETL过程特点 7
2.2.3 数据质量保证 8
2.2.4 元数据:拓展新星应用 9
3. EMC项目中的ETL应用 10
3.1 业务背景 10
3.2 实例概述 12
3.3 总体流程 13
3.4 接口表 14
3.4 企业数据迁移(EDM)模型层 15
3.5 事实表层 16
3.6 数据集市(DM)层 17
3.7 多维分析(OLAP)层 17
3.8 总体处理流程、反馈过程 17
4. EMC中数据调度校验的应用 19
4.1 需求分析 19
4.1.1 需求设计描述 19
4.1.2 功能性需求描述(按功能模块进行说明) 19
4.1.3 非功能性需求描述 20
4.2 系统总体设计 21
4.2.1 系统总体功能设计图 21
4.2.2 系统总体功能设计图说明 21
4.2.3 系统功能设计描述 22
4.3 概要设计 23
4.3.1 概要功能设计图 23
4.3.2 功能性描述(按功能模块) 24
4.4 后台调度流程 26
4.4.1 ETL任务调度概述 26
4.4.2 任务/任务组实例化 27
4.4.3 任务实例调度 28
4.5 后台校验流程 29
4.5.1 功能 29
4.5.2 数据结构 29
4.5.3 流程 29
4.5.4 重要函数 32
5. 效果说明和总结 42
致谢 43
参考文献 44
1. 绪论
1.1 研究背景
。97系统、10000号系统、大客户系统等多种业务支撑系统,然而各个系统相对独立,数据分散不一致。这就产生了数据依赖系统存在、缺少完整统一的客户视图、数据共享缺少统一的标准共享困难、数据对闭环的业务流程支撑程度较弱等问题。基于此现状,电信公司确定整合客户数据并以客户为中心实行统一视图的目标,那么建设本企业的数据仓库就势在必行了,而同时保证数据仓库中数据的质量的有效性就成为了一个重点研究的问题。
科学决策是现代企业的管理的核心与基础1.2 国内外研究现状
表1.1 人工编码与ETL工具比较
对比项 手工编码 ETL工具 灵活性 最灵活 比较灵活 难易程度 要求一定的技术水平 相对容易 管理和维护 较难 容易 性能和效率 取决于编写者水平 较高 开发周期 较长 较短 工作量 较重 中等 价格 相对较低 较高 1.3 本文的主要研究内容和内容组织
主要采用的技术手段。本结构分为五章,第一章为绪论,主要介绍
2. 数据仓库以及ETL
2.1 数据仓库(Data WareHouse, DW)
目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库的概念可以从两个层次予以理解首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。根据数据仓库概念的含义,数据仓库拥有以下四个特点:1、面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。3、相对稳定的:操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。4、反映历史变化:操作型数据库主要关心当前某一个时间段内
您可能关注的文档
- 徐州市丰县月牙河安置小区23号楼投标报价编制毕业设计.doc
- 悬臂式冲孔模设计说明书毕业论文.docx
- 悬臂浇筑预应力混凝土连续梁桥毕业论文.doc
- 徐州市三院门诊楼的设计毕业论文.doc
- 悬浮聚合法年产30万吨聚氯乙烯车间工艺设计毕业论文.doc
- 悬臂式掘进机行走机构工作分析及设计毕业论文.doc
- 悬索桥成桥状态静力毕业设计.doc
- 循迹小车设计毕业论文.doc
- 延长东部Y306井山区2段储层特征研究毕业论文.docx
- 弋江区白马新农村示范点环境治理方案设计毕业论文.doc
- GB/T 45128-2025塑料 含水量的测定.pdf
- 《GB/T 45128-2025塑料 含水量的测定》.pdf
- 《GB/T 45183-2025塑料 气候老化试验中辐照量的仪器测定 总则和基本测试方法》.pdf
- 中国国家标准 GB/T 45183-2025塑料 气候老化试验中辐照量的仪器测定 总则和基本测试方法.pdf
- GB/T 45183-2025塑料 气候老化试验中辐照量的仪器测定 总则和基本测试方法.pdf
- GB/T 29456-2025能源管理体系 实施、保持和改进GB/T 23331能源管理体系指南.pdf
- 中国国家标准 GB/T 29456-2025能源管理体系 实施、保持和改进GB/T 23331能源管理体系指南.pdf
- GB/T 18216.12-2025交流1 000 V和直流1 500 V及以下低压配电系统电气安全 防护措施的试验、测量或监控设备 第12部分:电量测量和监视装置(PMD).pdf
- 《GB/T 18216.12-2025交流1 000 V和直流1 500 V及以下低压配电系统电气安全 防护措施的试验、测量或监控设备 第12部分:电量测量和监视装置(PMD)》.pdf
- 中国国家标准 GB/T 18216.12-2025交流1 000 V和直流1 500 V及以下低压配电系统电气安全 防护措施的试验、测量或监控设备 第12部分:电量测量和监视装置(PMD).pdf
最近下载
- 第四课 侵权责任与权利界限 【高效课堂精研】高考政治一轮复习统编版选择性必修二法律与生活.pptx
- 长征.ppt VIP
- 2024~2025学年Unit 3 Learning better Part A Let’s talk & let’s learn 单元整体教学设计-三年级下册英语人教PEP版(2024).docx
- 长方体和正方体表面积的变化(增加或减少).pptx VIP
- 部编版《道德与法治》四年级下册第3课《当冲突发生》公开课课件(含视频).pptx
- JELLYCAT毛绒玩具新媒体营销策略分析.docx
- 护理核心制度课件.ppt
- 《消防检查指导手册》(2024版).docx VIP
- 北师大版义务教育小学数学教材知识体系整理.doc VIP
- 水产动物免疫学思考题.docx VIP
文档评论(0)