数据仓库与数据挖掘项目建设方案详细.docx

数据仓库与数据挖掘项目建设方案详细.docx

  1. 1、本文档共102页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘项目建设 数据仓库知识简介 软件质量控制 软件质量控制的 主要目的 是为了获得更高的开发效率,避免返工,提高产品的市场竞争力,从而为客户提高符合质量需求的稳定可靠的软件产品,同时它也是控制方法的集合,包 括软件建模、度量、评审以及其他活动。 用于软件控制的一般性方法如下: 目标问题度量法, 即通过软件质量目标并持续观察这些目标是否达到软件质量控制的一种方法 风险管理法, 即识别与控制软件开发中对成功达到质量目标危害最大的哪些因素的系统性 方法 PDCA 循环。这种方法发源于日本, 是指计划 plan ,做 do ,检查 check ,和行动 action 信息化的需求: 随着信息化的高速发展,各行各业,各组织单位积累了大量的业务数据,这些数据存在于各单位的数据库,各种报表、文档中,真可谓是数据的海洋。这些数据中蕴含着组织业务活动的大量规则,包含着组织管理决策所需要的重要知识,从这些数据中挖掘出有价值的信息,为管理决策提供支持是政府和企业事业单位共同面临的问题。 解决这个问题主要依赖于亮相技术: 一是对整个组织各部门生产的各种业务数据进行统一和综合,把业务数据转化为商业信息,支持决策,即数据仓库。 二是发现隐藏在各种数据之中有用的知识,即数据挖掘。 以银行为案例的 IT 整体架构 数据仓库的定义 ? 数据仓库系统是指面向主题的、 集成的、稳定的同时又是随时间变化的大量的数据集合。在综合使用一些应用软件下, 用户获得想要的信息, 最终为经营管理的决策提供有力的帮助 ? 数据仓库系统的业务特征是业务需求的范围和内容, 不像业务系统那样清晰和明确: 系统 建设的一个主要风险是体现在软件工程质量和串接方面存在较大的过程风险:系统建设的成功标准应该由应用系统的用户数及其使用频率作为重要参考依据。 数据仓库的建设过程的挑战 如何来控制风险、如何来保证质量呢?把质量控制作为数据仓库建设的生命线,把它贯穿于数据仓库建设整个过程的始终。那么质量控制的中心环节又是什么呢? 简单而言,包括 事前控制: 对方案和计划进行充分的咨询和论证; 事中管理: 对建设开发阶段进行持续不断的过程控制; 事后控制: 对于建设成果通过测试、评审、验收、试运行等方式进行面向结果的管理控制。 数据仓库的质量控制 ? 关于数据仓库中的质量管理问题的研究,目前有几个主要的切入点: (1 ) 从数据仓库的设计入手,简历适合全方位质量控制的体系结构 (2 ) 遵从生命周期观点,全过程控制数据仓库建设质量 (3 ) 按照数据仓库凶的工作机制和部件构成来制定质量控制标准 数据仓库质量从本质上说是总体数据质量的问题。数据仓库的质量问题是一个主观的标准问题,不同层次的人员对数据仓库的质量有不同的要求,必须根据追求的目标来制定质量的测评、预测标准并加以实现,才能真正达到质量控制的目的 数据仓库的精确定义 像是一种过程,是对分布在企业内部各处的业务数据整合、加工和分析的过程。而不是一种上世纪 80 年代中期,“数据仓库之父” William.H.Inmon 先生在其《建立数据仓库》 一书中定义了数据仓库的概念,随后又给出了更为 精确的定义: 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的数据集合。与其他数据库应用不同的是,数据仓库更 像是一种过程,是对分布在企业内部各处的业务数据整合、加工和分析的过程。而不是一种 可以购买的产品。 数据仓库的特点 数据仓库是面向主题的 主题是一个比较抽象的概念,是一种在较高层次上将企业信息系统中的数据综合、归类后进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的 面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整、统一、一致的描述,能完整及统一地描述出各个分析对象所设计的相关企业的分项数据,以及数据之间的联系 数据仓库是集成的 全面而正确的数据是进行有效分析和决策的首要前提。在某一个主题的统帅下,需要对数据进行抽取、清晰、转换和加载等集成操作。因为: (1 ) 数据仓库的数据不是直接从原有数据库系统复制得到,因为原有数据库系统记录的是每一项业务处理的流水账,这类数据不适合用于分析处理。在进入数据仓库之前必须经过综合计算,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。 (2 ) 数据仓库每一个主题所对应的源数据在原数据库中有可能有许多重复或不一致之处, 必须将这些数据转换成全局统一的定义, 消除不一致和错误之处, 以保证数据的质量。显而易见的是,对不准确,甚至不正确的数据进行分析得出的结果将不能用于知道企 业领导者做出科学的决策 数据仓库是相对稳定的 操作型数据库中的数据通常实时更新,数据根据需要发生变化。数据仓库的数据主要供企业领导者决策分析之用

文档评论(0)

文档查询,农业合作 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体土默特左旗农特农机经销部
IP属地内蒙古
统一社会信用代码/组织机构代码
92150121MA0R6LAH4P

1亿VIP精品文档

相关文档