- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
关联分析中各种属性的处理知识回忆1.分类属性的处理1.1概念介绍1.2处理方法1.3分类属性二元化的缺乏2.连续属性的处理2.1基于离散化的方法2.1基于统计学的方法2.3基于非离散化的方法
关联规那么挖掘假定输入数据由称作项的二元属性组成。还假定项在事物中出现比不出现更重要。这样,项被看作非对称的二元属性,且只有频繁模式才被认为是有趣的。例:6-2购物篮数据的二元0/1表示TID面包牛奶尿布啤酒鸡蛋可乐11100002101110301110141111005111001
从上述的购物篮数据中,我们可得出{尿布}?{啤酒}这一有趣的规那么。这一频繁项集的得出,我们可以运用:Apriori算法、Hash树法、FP增长算法等等。关于该规那么的支持度和置信度的计算如下:上面规那么的支持度s={尿布、啤酒}支持度计数/事物个数=3/5=0.6上面规那么的置信度c={尿布、啤酒}支持度计数/{尿布}支持度计数=3/4=0.75
1、处理分类属性性别文化程度州家庭计算机网上聊天网上购物关注隐私女研究生伊利诺伊是是是是男大学加利福尼亚否否否否男研究生密歇根是是是是女大学弗吉尼亚否否是是女研究生加利福尼亚是否否是男大学明尼苏达是是是是男大学阿拉斯加是是是否男高中俄勒冈是否否否女研究生得克萨斯否是否否
1.1概念介绍上面的因特网调查数据中,像性别、家庭计算机、网上聊天、网上购物和关注隐私这些属性,我们称为对称二元属性;而像文化程度、州称之为标称属性。1.2处理方法对于对称二元属性,可以转化成一对二元属性如:性别分为男和女,而对于标称属性,那么可以用多个二元项取代,例如:文化程度=大学,文化程度=研究生,文化程度=高中。通过这样将分类属性和对称二元属性转化成“项”之后,我们就可以如下二元化后的调查数据:
男女文化程度=研究生文化程度=大学…关注隐私=是关注隐私=否0110…101001…011010…100101…100110…101001…101001…011000…010110…01
使用关联分析,从上表挖掘出的信息是:{网上购物=是}?{关注隐私=是}1.2分类属性二元化的缺乏利用二元化后的数据进行关联分析时,需要注意以下几点:〔1〕有些属性值可能不够频繁,不能成为频繁模式的一局部。这个问题主要出在标称属性上,如例子中的州名这一属性。假设不加处理的将其用多个二元项取代,计算量将会过大,不太实际。所以实际做法是,将相关的属性值分组,形成少数类别。例如,每个州名都可以用对应的地理区域如中西部、太平洋西北部、西南部和东海岸取代。另一种可能性是,将不太频繁的属性值聚合成一个称作其他的类别。〔2〕某些属性的频率可能比其他属性高很多,容易产生冗余模式。例如,假定85%的被调查人都有家庭计算机。如果为每个频繁出现在数据中的属性值创立一个二元项,我们可能产生许多冗余模式,如下面的例子所示:{家庭计算机=是,网上购物=是}?{关注隐私=是}
〔3〕尽管每个事物的宽度与原始数据中属性个数相同,但是计算时间可能增加,特别是当新创立的项变成频繁项时。这是因为需要更多时间处理由这些项产生的候选集。减少计算时间的一种方法是,防止产生包含多个来自同一属性的项的候选项集。例如,我们不必产生诸如{州=X,州=Y,…}的候选项集,因为该项集的支持度计数为零。
2、处理连续属性性别…年龄年收入每周上网小时数E-mail帐号数关注隐私女2690K204是男51135K102否男2980K103是女45120K153是女3195K205是男2555K255是男37100K101否男4165K82否女2685K121否
上表是具有连续属性的因特网调查数据,如年龄、年收入、每周上网小时数、e-mail账号数就是连续属性。对连续属性数据进行关联分析的方法具体有〔1〕基于离散化的方法,〔2〕基于统计学的方法,〔3〕非离散化方法。2.1基于离散化的方法所谓离散化就是将连续属性的邻近值分组,形成有限个区间。例如,年龄属性可以划分成如下区间:年龄∈[12,16),年龄∈[16,20),年龄∈[20,24),…,年龄∈[56,60)其中,[a,b)代表包含a但不包含b的区间。离散的区间可以映射到非对称的二元属性,使得可以使用已有的关联分析算法
下表是二元化分类属性和连续属性后的因特网调查数据男女…年龄13年龄∈[13,21)年龄∈[21,30)…关注隐私=是关注隐私=否01…001…1010…000…0110…001…1001…000…1001…000…1010…001…1010…000…0110…000…0101…001…01
下表是根据年龄组划分的数据年龄组网上聊天=是网上聊天=否[12,16)1213[16,20)112[20,24)113[24,
文档评论(0)