- 1、本文档共24页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据库与数据仓库数据库-数据管理-事务处理-获取数据- OLTP-银行的存款和取款 数据仓库-管理技术-决策支持-分析数据- OLAP-规律趋势决策预测数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策制定过程。数据仓库不是产品。 数据库技术-存储数据和管理资源 统计分析技术-分析和提取信息 人工智能技术-挖掘知识和发现规律利用数据仓库解决四种类型的问题: 1. 2005年10月25日肝脏外科的住院人次数是多少2. 呼吸内科明年的就诊情况如何?(科室应作何相应调整?) 3. 2005年1-10月份经消化内科某医师诊治的十二指肠球部溃疡患者的平均住院天数及药品费用构成比是多少? 4. 影响患者住院费用高低的因素是哪些?其中哪个是最关键因素? 数据仓库设计与开发的一般过程: 1. 任务和环境的评估 2. 需求的收集和分析 3. 设计数据仓库 4. 创建数据准备区 5. 创建数据仓库数据库 6. 从联机事务处理系统中析取数据 7. 清理和转换数据 8. 向数据仓库数据库中加载数据 9. 向数据集市发布数据 10.创建多维数据集 11.进行数据挖掘 12.设计并实现终端用户的应用程序 13.将数据仓库和基于它的应用投入使用 ☆ 数据仓库的数据模型结构 1.星型模型星型模型由一个事实表和维表组成,事实表是星型模型的核心表,包含两种类型的列,第一种列是维度表的索引列,这些列中存储了各维表的主键值,它们组合成事实表的主键;而其他非主属性的列则称为事实列,其中包含了用于计算的信息,即多维数据集中的度量值。事实表中的每个事实指向每个维表中的一个元组。 2.雪花模型雪花模型是对星型模型的一个扩展,每个维表都可以向外连接多个维表。雪花模型是对星型模型的维表进一步标准化,维表分解成与事实表直接关联的主维表和与主维表关联的次维表。它的优点是通过最大限度的减少存储量以及将较小的标准化表而不是较大的非标准化表联合在一起来改善查询性能。由于采用标准化及维的较低粒度,雪花模型增加了应用程序的灵活性,但由于雪花模型增加了连接操作的次数,因而也增加了查询的复杂性。 多维数据集:事实表与维表多维数据集是联机分析处理的主要对象,是分析数据的基础,是一项可对数据仓库的中的数据进行快速访问的技术。 维度:维度是人们观察数据的特定角度,是数据的视图,如可以从时间、科室、病种等不同的角度观察有关住院情况的数据。在实际中最常用的维度是时间维度,维也可以有细节程度不同的描述,这些不同的描述称为维的层次(级别或粒度)。数据仓库中的数据按照不同的维组织起来形成了一个多维的立方体,也即多维数据集。 星型架构:单个维表;雪花架构:多个相关联的维表 级别、粒度、成员属性粒度是数据仓库中数据单元的详细程度和级别。粒度越小,级别越低,细节程度越高;反之,数据综合程度越高,粒度越大,级别就越高。数据的粒度越高,所需要存储的数据量越少,但对决策者的重要性却随之增加。成员属性一般为某一级别的具体属性,通过为某一级别创 建成员属性,可以进行数据挖掘。 时间、病种、患者、……;区域、产品、……时间维度:年、月、日病种维度:ICD主类、ICD次类、ICD子类、疾病名称患者维度:所属科室、经诊医师、患者(成员属性:性别、年龄、身份、费用类别、手术情况、入院方式、入院病情、出院方式、治疗结果、就诊次数、所患疾病等)治疗结果:只有一个级别 度量值:主要是数值型字段,如:费用金额、住院天数等 衍生度量值:就诊人次数等计算成员:均值、百分比、率等SQL server 2000 数据挖掘 2005年11月10日 数据挖掘(data mining,DM)就是通过对大型数据库和数据仓库中大量似乎无关的数据进行分析,以便发现并提取隐藏在数据深处的、人们事先不知道的、但是潜在有用的信息、知识和规律的过程。 数据挖掘是一种基于发现的方法,它能够自动分析数据并进行归纳性的推理,从中挖掘出潜在的规律或模式,以帮助管理决策者建立新的模型。 目前应用比较广泛的数据挖掘模型和方法主要有基于规则的系统(决策树)、统计方法(聚类)、神经网络、基于事例的推理、机器学习等。 在Analysis Services中系统内置了决策树 和聚类分析两种挖掘模型。决策树模型是通过一系列的数据细分来实现最终的数据分析,适合于商业预测;而聚类分析模型常用于对比较类似的数据进行集成,适合于商业中的市场划分。 决策树模型Analysis Services中的决策树模型是一种 基于条件和概率的决策方法。它首先选择数据中的显著特征,然后根据这些特征不断的对数据进行分类,缩小数据集,把数据逐步组织成树的形式,直到建
您可能关注的文档
- _第三单元课题2分子和原子课件88557.ppt
- 第1章 概论83928.ppt
- 中外近代高等教育的比较.pptx
- 课题4_爱护水资源_(好好)19761.ppt
- 第9章 信息安全38099.ppt
- 计算方法14.ppt
- 微机原理第4章_1.ppt
- 生产运作管理22875.ppt
- 高中历史选修1 第2课 日本仿效唐制的变革.ppt
- 西方经济学基础 第1章 西方经济学的对象与方法.ppt
- 河南省郑州市第一中学2017-2018学年高一下学期周测物理试题(325)扫描版含答案.doc
- 山西省怀仁县第一中学2017-2018学年高二下学期第一次月考生物试题扫描版.doc
- 河南省六市高三下学期第一次联考试题(3月)理科综合扫描版含答案.doc
- 四川省高三全国Ⅲ卷冲刺演练(一)文综地理试卷扫描版含答案.doc
- 河南省洛阳市高三第二次统考文综试卷扫描版含答案.doc
- 甘肃省靖远县高三下学期第二次联考理科综合试题扫描版含答案.doc
- 问题导学法在办公场景中的实施策略及效果评估.docx
- 退休后的个人品牌打造与传播策略.docx
- 问题解决在办公流程优化中的应用.docx
- 问题导向的办公环境创新设计.docx
文档评论(0)