- 1、本文档共101页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘导论-ch7要点
(C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 (C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 关联分析: 高级概念 关联分析处理事务数据 处理分类属性 处理分类属性 为了提取这样的模式,我们需要将标称属性和对称二元属性转换成“项”,使得已有的关联规则挖掘算法可以使用。 这种类型的变化可以通过为每个不同的属性-值对创建一个新的项来实现。 例如: 标称属性文化程度可以用三个二元项取代 文化程度=大学 文化程度=研究生 文化程度=高中 类似的,对称二元属性性别可以转换成一对二元项:性别=男、性别=女。 处理分类属性 将关联分析用于二元化后的数据时,需要考虑如下问题。 (1)有些属性值可能不够频繁,不能成为频繁模式的一部分。如:州名。 解决办法:将相关的属性值分组,形成少数类别。例如,每个州名都可以用对应的地理区域取代。例如:分别用中西部、太平洋西北部、西南部和东海岸取代。 处理分类属性 将关联分析用于二元化后的数据时,需要考虑如下问题。 (2)某些属性值的频率可能比其他属性高很多。如:假定85%的被调查人都有家庭计算机,如果为每个频繁出现在数据中的属性值创建一个二元项,我们可能产生许多冗余模式。 {家庭计算机=是,网上购物=是} ?{关注隐私=是} 解决办法:使用处理具有宽支持度的极差数据集的技术。 处理分类属性 将关联分析用于二元化后的数据时,需要考虑如下问题。 (3)计算时间可能增加,特别是当新创建的项变成频繁项时。因为会产生更多的候选项集。 解决办法:避免产生包含多个来自同一个属性的项的候选项集。例如:不必产生诸如{州=X,州=Y,…}的候选项集,因为该项集支持度为零。 处理连续属性 因特网调查数据可能还包含连续属性,如表7-3所示。 挖掘连续属性可能揭示数据的内在联系,如“年收入超过120k的用户属于45-60年龄组”或“拥有超过3个email帐号并且每周上网超过15小时的用户通常关注个人隐私”: 包含连续属性的关联规则通常称作量化关联规则(quantiative association rule)。 对连续数据进行关联分析的方法: 基于离散化的方法 非离散化方法 基于统计学的方法 基于离散化的方法 离散化是处理连续属性最常用的方法。这种方法将连续属性的邻近值分组,形成有限个区间。例如:年龄属性可以划分为如下区间: [12,16),[16,20),[20,24),…,[56,60) 离散化技术:等宽、等频、聚类 表7-4显示了离散化和二元化后的因特网调查数据。 属性离散化的一个关键在于划分每个属性的区间个数和宽度。然而,确定正确的区间是困难的。 如果支持度阈值=5%,置信度阈值=65%。我们可以从表中推出年龄和网上聊天隐含强规则: [16,24) ?网上聊天=是(s=8.8%,c=81.5%) [44,60) ?网上聊天=否(s=16.8%,c=70%) 区间宽度对关联分析结果的影响。 (1)如果区间太宽,则可能因为缺乏置信度而失去某些规则 例如:当区间宽度为24岁时,上面的两个规则变为 [16,36) ?网上聊天=是(s=30%,57.7%) [36,60) ?网上聊天=否(s=28%,58.3%) 区间宽度对关联分析结果的影响。 (2)如果区间太窄,则可能因为缺乏支持度而失去某些规则 例如:当区间宽度为4岁时,上面的两个规则变为 [16,20) ?网上聊天=是(s=4.4%,84.6%) [20,24) ?网上聊天=是(s=4.4%,78.6%) (3)当区间宽度为8岁时,上面的两个规则变为 [44,52) ?网上聊天=否(s=8.4%,70%) [52,60) ?网上聊天=否(s=8.4%,70%) [12,20) ?网上聊天=是(s=9.2%,60.5%) [20,28) ?网上聊天=是(s=9.2%,60.0%) 非离散化方法 有一些应用,分析者更感兴趣的是发现连续属性之间的关系。例如,找出表7-6所示文本文档中词的关联。 在文本挖掘中,分析者更感兴趣的是发现词之间的关联(例如:数据和挖掘)。而不是词频区间(例如,数据:[1,4],挖掘:[2,3])之间的关联。 一种方法是将数据变换成0/1矩阵;其中,如果规范化词频超过某个阈值t,则值为1,否则为0。 该方法缺点是阈值难确定。 另一种方法是采用min-apriori方法。 S({word1, word2})=min(0.3, 0.6)+min(0.1 , 0.2)+
文档评论(0)