网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘-DM3Concept.ppt

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘-DM3Concept

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * (1)学习特征规则 数据收集 相关性分析 Sort and select the most relevant dimensions and levels. 面向属性的类描述(AOI) On selected dimension/level 得到主关系表,进行规则析取 用AOI方法找出目标类概念与对比类概念的辨识规则,从而可以对她们进行区分。 Example:区分研究生与大学生,通过属性排除。归纳提升和同步泛化,得到表3-6 ?从表3-6可见,不同的类可以有公共的元组,把这些元组叫做重复元组。【表中所示的重复元组表示出生在江苏、专业是科学、GPA为优秀的学生,可能是也可能不是一个研究生,说明】 关键:同步泛化、重复元组的处理及辨识规则的析取。 重复元组描述的概念不能把目标类和对比类区分开。【为得到一个有效的辨识规则,必须仔细处理这些重复元组,于是有策略8】。 (2)学习辨识规则(类比较) 策略8. (重复元组的处理):如果在目标类和对比类中有重复元组,则在该元组上做一个标记,表示在最后的辨识规则中不考虑这些元组 经策略8处理后,设泛化阈值为3,进一步泛化Birth_place属性,结果如表3-7所示。表3-7的目标类只有一个未标记元组,对比类中有两个未标记的元组 辨识规则的析取 : 定性的辨识规则 定量的辨识规则 定性的辨识规则 只能包括未标注元组, 其形式为: 【表示一个目标属于目标类的充分条件而非必要条件。满足这些条件的元组必定在目标类中,但目标类中的元组不一定都满足这些条件。】 定量的辨识规则 在许多情况下,重复元组有益于从最终的泛化关系中导出定量规则,它们把每个析取与一个定量(称为d权)联系起来,表示规则的辨识能力。 Class Major Birth Place GPA Count(mark) 研究生 (目标类) 艺术 中国 优秀 35* 科学 中国 优秀 40** 科学 外国 良好 25 大学生 (对比类) 科学 中国 优秀 50** 艺术 中国 一般 70 科学 中国 一般 60 艺术 中国 优秀 20* d(科学、外国、良好)= 25/25*100%=100% 表3-7 Class Major Birth Place GPA Count(mark) 研究生 (目标类) 艺术 中国 优秀 35* 科学 中国 优秀 40** 科学 外国 良好 25 大学生 (对比类) 科学 中国 优秀 50** 艺术 中国 一般 70 科学 中国 一般 60 艺术 中国 优秀 20* d(艺术、中国、优秀)=35/(35+20)*100%=63.63% 表3-7 Class Major Birth Place GPA Count(mark) 研究生 (目标类) 艺术 中国 优秀 35* 科学 中国 优秀 40** 科学 外国 良好 25 大学生 (对比类) 科学 中国 优秀 50** 艺术 中国 一般 70 科学 中国 一般 60 艺术 中国 优秀 20* d(科学、中国、优秀 )=40/(40+50)*100%=44.44% 表3-7 So,graduate的定量辨识规则如下: d_weight在区间[0,1]上,d值大说明概念主要是从目标类中推导出来的,而低的d值标明概念主要是从对比类中推导出来的。任何未标记元组的d值都是100%。 类比较算法步骤: Step1. 收集相关数据,包括目标类和对比类 Step2. 做属性相关分析,去掉非相关或弱相关的属性 Step3. 同步泛化。把目标类和对比类的数据都泛化到指定的概念层次,并对重复元组进行标记。 Step4. 对比结果的描述。(定性或定量的辨识规则的表达) 返回 (3)类别描述(特征描述与类比较相结合) 泛化关系表描述的规则 表示 符号 定量描述用的权重 规则表示的例子 学习特征规则 对被描述类(目标类)的描述 由目标到元组 t_weight 学习辨识规则 对目标类和比较类的比较描述 由元组到目标 d_weight a. AOI两种用法的比较 b. 权值的计算 T_weight的计算:在目标类中做统计 如表3-7所示:t_weight(1)=35/(35+40+25)=35% t_weight(2)=40/(35+40+25)=40% t_weight(3)=25/(35+40+25)=25% ?

文档评论(0)

文档精品 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6203200221000001

1亿VIP精品文档

相关文档