浙大数据挖掘4数据立方体.pptx

下载文档

1
0
约4.72千字
约 28页
2018-03-03 发布于山东
举报
版权申诉
保障服务

浙大数据挖掘4数据立方体.pptx

1、本文档共28页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据立方体计算与数据泛化（2）数据泛化数据泛化通过将相对层次较低的值（如属性age的数值）用较高层次的概念（如青年、中年、老年）置换来汇总数据主要方法：数据立方体（OLAP使用的方法）面向属性的归纳方法1(青年,中年,老年)2概念层34(17,18,19,…,34,35,36,…,56,57,…)5什么是概念描述？概念描述是一种数据泛化的形式。概念通常指数据的汇集如frequent buyers，graduate students概念描述产生数据的特征化和比较描述，当所描述的概念所指的是对象类时，也称为类描述特征化：提供给定数据汇集的简洁汇总比较：提供两个或多个数据集的比较描述概念描述 VS. OLAP相似处：数据泛化对数据的汇总在不同的抽象级别上进行呈现区别：复杂的数据类型和聚集OLAP中维和度量的数据类型都非常有限（非数值型的维和数值型的数据），表现为一种简单的数据分析模型概念描述可以处理复杂数据类型的属性及其聚集用户控制与自动处理OLAP是一个由用户控制的过程概念描述则表现为一个更加自动化的过程数据特征化的面向属性的归纳一种面向关系数据查询的、基于汇总的在线数据分析技术。受数据类型和度量类型的约束比较少面向属性归纳的基本思想：使用关系数据库查询收集任务相关的数据通过考察任务相关数据中每个属性的不同值的个数进行泛化，方法是属性删除或者是属性泛化通过合并相等的，泛化的广义元组，并累计他们对应的计数值进行聚集操作通过与用户交互，将广义关系以图表或规则等形式，提交给用户数据聚焦（1）目的是获得跟任务相关的数据集，包括属性或维，在DMQL中他们由in relevance to子句表示。示例：DMQL: 描述Big-University数据库中研究生的一般特征 use Big_University_DBmine characteristics as “Science_Students”in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in “graduate”数据聚焦（2）上述DMQL查询转换为如下SQL查询，收集任务相关数据集Select name, gender, major, birth_place, birth_date, residence, phone#, gpafrom studentwhere status in {Msc, M.A., MBA, PhD}初始工作关系数据泛化数据泛化的两种常用方法：属性删除和属性泛化属性删除的适用规则：对初始工作关系中具有大量不同值的属性，符合以下情况，应使用属性删除：在此属性上没有泛化操作符（比如该属性没有定义相关的概念分层）该属性的较高层概念用其他属性表示属性泛化的使用规则：如果初始工作关系中的某个属性具有大量不同值，且该属性上存在泛化操作符，则使用该泛化操作符对该属性进行数据泛化操作属性泛化控制确定什么是“具有大量的不同值”，控制将属性泛化到多高的抽象层。属性泛化控制的两种常用方法：属性泛化阈值控制对所有属性设置一个泛化阈值或者是对每个属性都设置一个阈值（一般为2到8）泛化关系阈值控制为泛化关系设置一个阈值，确定泛化关系中，不同元组的个数的最大值。（通常为10到30，允许在实际应用中进行调整）两种技术的顺序使用：使用属性泛化阈值控制来泛化每个属性，然后使用关系阈值控制进一步压缩泛化的关系归纳过程中的聚集值计算在归纳过程中，需要在不同的抽象层得到数据的量化信息或统计信息聚集值计算过程聚集函数count与每个数据库元组相关联，初始工作关系的每个元组的值初始化为1通过属性删除和属性泛化，初始工作关系中的元组可能被泛化，导致相等的元组分组新的相等的元组分组的计数值设为初始工作关系中相应元组的计数和e.g. 52个初始工作关系中的元组泛化为一个新的元组T，则T的计数设置为52还可以应用其他聚集函数，包括sum，avg等面向属性的归纳——示例挖掘BigUniversity数据库中研究生的一般特征name：删除属性（大量不同值，无泛化操作符）gender：保留该属性，不泛化major：根据概念分层向上攀升{文，理，工…}birth_place：根据概念分层location向上攀升birth_date：泛化为age，再泛化为age_rangeresidence：根据概念分层location向上攀升phone#：删除属性gpa：根据GPA的分级作为概念分层面向属性的归纳——示例初始工作关系主泛化关系面向属性的归纳算法输入1. DB; 2. 数据挖掘查询DMQuery; 3. 属性列表; 4. 属性的概念分层; 5. 属性的泛