5-数据挖掘技术-概念描述特征化与比较.ppt

5-数据挖掘技术-概念描述特征化与比较.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
5-数据挖掘技术-概念描述特征化与比较

Data Mining: Concepts and Techniques 数据挖掘技术 ----概念描述:特征化与比较 什么是概念描述? 描述性 vs. 预测性数据挖掘 描述性数据挖掘 预测性数据挖掘 概念描述: 特征化:对所选择的数据汇集给出一个简单明了的描述。 比较:提供对于两个或以上数据汇集进行比较的结果。 概念描述 在进行概念描述之前,需要对庞大的任务相 关的数据集进行预处理吗? 数据概化和基于汇总的特征化 数据概化 将大量的相关数据从一个较低的概念层次转化到一个比较高的层次。 方法: 数据立方体(或OLAP方法) 面向属性的归纳 OLAP方法 在数据立方体上进行计算和存储结果 优点 效率高 能够计算多种汇总 如:count,average,sum,min,max 还可以使用roll-down和roll-up操作 限制 只能处理非数值化数据和数值数据的简单汇总。 只能分析,不能自动的选择哪些字段和相应的概念层次。 面向属性的归纳 不限制于种类字段和特定的汇总方法 方法介绍: 使用SQL收集相关数据; 通过属性删除和属性概化来实现概化; 聚集通过合并相等的广义元组,并累计他们对应的计数值进行; 和使用者之间交互式的呈现方式。 基本方法 数据聚焦:选择和当前分析相关的数据,包括维。 属性删除: 如果某个属性包含大量不同值,但是 1) 在该属性上没有概化操作,或者 2)它的较高层概念用其它属性表示。 属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。 属性阈值控制: typical 2-8, specified/default. 概化关系阈值控制: 控制最终关系的大小。 示例 DMQL: use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate” 相应的SQL: Select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in {“Msc”, “MBA”, “PhD” } 类特征化:示例 概化结果的表示 概化关系: 一个表格,其中有属性字段,后附汇总方法。 交叉表: 二维交叉表 可视化方法: Pie charts, bar charts, curves, cubes, and other visual forms. 量化特征规则: 是目标类的必要条件,但不是充分条件! 表达方式-概化关系 表达方式—交叉表 解析特征化:属性相关性分析 why? 哪些维需要包括? 减少属性;从而容易理解模型结果 What? 使用统计的方法进行数据预处理 过滤掉一些不相关或者相关性比较弱的字段 (属性/维的相关性要根据属性/维区分一个类与其他类的能力来评估) 保留并对相关属性进行排序 分析特征化,分析比较 属性相关性分析 步骤? 数据收集 使用保守的AOI进行预相关分析 使用选定的相关分析度量删除不相关和弱相关属性 使用AOI产生概念描述 相关性度量标准 相关性度量标准决定了如何对属性进行判断的标准 度量包括信息增益、Gini索引、不确定性和 相关系数 熵和信息增益 信息增益分析技术删除信息量较少的属性,收集信息量交多的属性,用于概念描述分析。 集合S中类别Ci的记录个数是si 个, i = {1, …, m} 期望信息 属性A的熵是 信息增益 具有最高信息增益的属性是给定集合中具有最高区分度的属性。 一个例子 任务 使用分析特征化来了解研究生的一般特征 属性名称 gender, major, birth_place, birth_date, phone#, gpa Gen(ai) = concept hierarchies on ai Ui = attribute analytical thresholds for ai Ti = attribute generalization thresholds for ai R = attribute relevance threshold 例子:分析特征化(续) 1. 数据收集 target class: graduate student contrasting class: underg

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档