- 1、本文档共58页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第九章知识发现和数据挖掘.
高级人工智能 史忠植 第九章 知识发现和数据挖掘 知识发现 关联规则 数据仓库 知识发现工具 知识发现 数据库知识发现 不同的术语名称 知识发现的任务(1) 知识发现的任务(2) 知识发现的方法(1) 知识发现的方法(2) 知识发现的方法(3) KDD的技术难点 关联规则 关联规则的表示 关联规则的相关概念(1) 关联规则的相关概念(2) 关联规则的相关概念(3) 关联规则的相关概念(4) 关联规则发现任务 关联规则发现的基本思路 思路的正确性 经典的Apriori算法 关联规则发现注意的问题 关联规则发现使用步骤 关联规则在保险业务中的应用 数据仓库 数据仓库的定义 数据仓库的特征(1) 数据仓库的特征(2) 元数据 元数据的重要性 数据仓库的相关概念 数据仓库的建模模型 OLAP OLAP的类型 OLAP的分析操作 数据仓库和知识发现技术的结合(1) 数据仓库和知识发现技术的结合(2) 连接数据,做数据准备 给定最小支持度和最小可信度,利用知识发现工具提供的算法发现关联规则 可视化显示、理解、评估关联规则 最小支持度1%,最小可信度为50% 在过去几十年,数据库技术,特别是OLTP(联机事务处理),主要是为自动化生产、精简工作任务和高速采集数据服务。它是事务驱动的、面向应用的。 20世纪80年代,人们要利用现有的数据,进行分析和推理,从而为决策提供依据。这种需求既要求联机服务,又涉及大量用于决策的数据。而传统的数据库系统已无法满足这种需求: 所需历史数据量很大,而传统数据库一般只存储短期数据。 涉及许多部门的数据,而不同系统的数据难以集成。 对大量数据的访问性能明显下降 信息处理技术的发展趋势是:从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格。随着此过程的发展和完善,这种九十年代初出现的支持决策的、特殊的数据存储即被称为数据仓库(Data Warehouse)。 Inmon将数据仓库明确定义为: 数据仓库(Data Warehouse)是面向主题的,集成的,内容相对稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。 数据仓库中的数据是面向主题的 与传统数据库面向应用相对应的。主题是一个在较高层次将数据归类的标准,每一个主题基本对应一个宏观的分析领域 数据仓库中的数据是集成的 在数据进入数据仓库之前,必然要经过加工与集成。要统一原始数据中的所有矛盾之处,还要进行数据综合和计算 数据仓库中的数据是稳定的 数据仓库的数据主要供决策分析之用,所涉及的操作主要是数据查询,一般不进行修改操作 数据仓库中的数据又是随时间不断变化的 数据仓库的数据不是实时更新的,但并不是永远不变的,也要随着时间的变化不断地更新、增删和重新综合。 更新周期 元数据(Metadata)是关于数据的数据,它描述了数据的结构、内容、编码、索引等内容。传统数据库中的数据字典是一种元数据,但在数据仓库中,元数据的内容比数据库中的数据字典更加丰富和复杂。设计一个描述能力强、内容完善的元数据,是有效管理数据仓库的具有决定意义的重要前提 数据仓库使用者往往将使用元数据作为分析的第一步。元数据如同数据指示图,指出了数据仓库内各种信息的位置和含义 从操作型数据环境到数据仓库的数据转换是复杂的、多方面的,是数据仓库建设的关键性步骤,元数据要包含对这种转换的清晰描述,保证这种转换是正确、适当和合理的,并且是灵活可变的 元数据还管理粒度的划分、索引的建立以及抽取更新的周期等,以便管理好数据仓库中的大规模数据 事实表(Fact):存储用户需要查询分析的数据,事实表中一般包含多个维(Dimension)和度量(Measurement)。 维:代表了用户观察数据的特定视角,如:时间维、地区维、产品维等。每一个维可划分为不同的层次来取值,如时间维的值可按年份、季度、月份来划分,描述了不同的查询层次。 度量:是数据的实际意义,描述数据“是什么”,即一个数值的测量指标,如:人数、单价、销售量等。 度量的实际数据存放在事实表中。维的详细信息,如不同的层次划分和相应数据等在维表中存储,事实表中存放各个维的标识码键。事实表和维表将通过这些键关联起来,构成一种星型模型 对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为雪花模型 数据仓库技术中,多维数据分析(Multidimensional Data Analysis)方法是一种重要的技术,也称作联机分析处理(On-Line Analytical Processing,简称OLAP)或数据立方体(Data Cube)方法,主要是指通过各种即席复杂查询,
文档评论(0)