- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于hadoop与医疗大数据FP―Growth算法优化研究
基于hadoop与医疗大数据FP―Growth算法优化研究
摘要:针对传统 FP-Growth 算法在大规模数据环境下挖掘效率低下的问题,提出了一种改进的 FP-Growth 算法。该算法主要是通过基于频繁闭项集策略对完备模式树进行剪枝进而减小有哪些信誉好的足球投注网站空间规模,达到提高算法挖掘效率的目的。并将改进后的 FP-Growth 算法的分治策略与分布式计算框架Hadoop的MapReduce编程模式有机结合,进一步提高了大数据环境下的挖掘效率。实验证明,基于Hadoop的改进 FP-Growth 算法的效率较传统 FP-Growth 算法有所提高。
关键词:数据挖掘关联规则;FP-Growth;HadoopMapReduce
中图分类号:TP314 文献标识码:A 文章编号:1009-3044(2018)14-0001-02
1 绪论
在本文中,将采用FP-Growth算法进行医疗大数据的挖掘和分析,之所以采用FP-Growth算法,是因为其比Apriori算法更加方便,仅需2次扫描数据库,就能得到用于数据分析的频繁项集等数据。为了提高数据挖掘的效率,将传统的算法并行化改进后移植到Hadoop平台,这是基于云计算的数据挖掘的核心过程,也是本文的重点和难点。
2 FP-Growth 算法
FP-Growth 算法使用 FP-tree 直接发现频繁项集,避免了候选项集的产生环节。
算法原理:算法的第一步是构造一棵 FP-tree, FP-tree 体现的是对数据的压缩表示。首先分别读取每一条事务,将该事务映射到 FP-tree 上的一条路径,不同的事务可能有相同的前项,那么它们在 FP-tree 上的路径就有可能重合,路径越重合,表明数据压缩效果越好, FP-tree 构造越成功[1]。最理想的情况下就是每一条事务都完全相同,或者起码共享相同的前缀,此时构造的 FP-tree 仅包括一条路径,最不理想的情况是所有事务都不包含任何相同项,此时 FP-tree 的大小就和事务数据集相同,并没有起到压缩数据的作用[2]。
产生 FP-tree 后,第二步, FP- Growth算法从底向上探索整棵树,由 FP-tree产生频繁项集。 FP- Growth算法不同于Apriori算法,Apriori算法产生的频繁项集时先产生频繁 1-项集,然后是频繁 2-项集,频繁 3-项集等等。 FP- Growth算法按照结尾项进行频繁项集的寻找,采用分治策略,将寻找频繁项集这个大问题划分为寻找以某个特定项结尾的所有频繁项集这样一个个小问题,进而得到解决[3]。
3 改进 FP-Growth 算法
针对FP-Growth 算法的缺点,对经典算法进行改进,提出使用支持度计数二维表的方法,从而省去经典算法?μ跫?模式基的第一次遍历,具体算法描述为:
(1) 在第一次遍历事务集合T 的同时创建二维向量,记录每个事务中各个项两两组合出现的支持度计数。如有事务“A,B,C,D”,则二维向量表中(A,B)(A,C)、(A,D)、(B,C)、(B,D)、(C,D)项都需要加1。其中向量(C,B)和(B,C)是两个不同的向量。
(2)利用递归方式创建α条件下( α≠{Null})的条件FP 子树时,无须两次遍历条件模式基(其中第一次遍历条件模式基可得到支持度计数列表,第二次遍历条件模式基可插入树节点从而创建FP 树)。支持度计数列表可以从支持度计数二维向量列表中获得。抽取二维向量表中的与Ei相关的行、列值,将对应行列值相加即可得到条件α下,Ei与其他项的支持度计数。其中Ei为当前项。
(3)遍历条件模式基,创建FP 子树的同时创建新的支持度计数二维向量表。例如表1 所示的事务集合T,要求min_Sup=25%,由此可得支持度计数最小为5(17×25%= 4.25)。根据经典算法中的原则,遍历一次事务集合T 可获得项头表如表2 所示。本改进点在此遍历中需要多做一项工作,即生成支持度计数二维向量表。首先创建如表3 所示的空二维向量表1。另外将二维表中的所有相关项对计数值初始化为0。在第一次遍历事务集合时,对于T1 需要更新其在项头表中的频繁度计数。同时获取T1 的所有两两项组合:{A,F}。T1 中只有一个符合条件的组合,将该组合对应的计数值加1。用同样的方式处理T2、T3等事务。T15 中包含的项集对有{A,B}{A,C}{A,D}{B,D}{C,D},故对应于此6 个组合的项对支持度计数也需要加1。用同样的方式处理T16、T17,最终可获得表3所示的支持度计数二维列表[4]。
此支持度计数二维列表中记录了所有项两两组合在事务集合中出现的频率。由于算法不关心支持度计数小于特定值的,因此在获
您可能关注的文档
- 基于Geomagic Design X锤子逆向建模.doc
- 基于GIS Web技术对基础地理信息服务影响.doc
- 基于GEM模型广州会展产业集群竞争力研究.doc
- 基于GISRS技术汶川县生态环境适宜性评.doc
- 基于GEM模型重庆市休闲体育产业集群竞争力研究.doc
- 基于GIS和粒子群算法物流配送多中心选址优化方法及应用.doc
- 基于GIS技术供水管网信息系统设计探讨.doc
- 基于GIS本质安全型矿井一通三防管理系统研究.doc
- 基于GIS电网监控系统.doc
- 基于GIS统筹区域土地利用研究.doc
- [50632890]2025年中考英语二轮专题复习+宾语从句++课件.pptx
- 出版物发行员考试《出版物发行员考试在线测试》模拟考试卷(七).doc
- 人教版四年级下册数学期末测试试卷及完整答案(有一套).docx
- 初中毕业班课程改革实施计划.docx
- 西南03J201-3(金属夹芯板、金属压型板、采光玻璃屋面).docx
- 出版物发行员考试《出版物发行员考试在线测试》模拟考试卷(三).doc
- 人教版五年级下学期数学期末测试卷及参考答案【综合题】.docx
- 出版物发行员考试《出版物发行员考试微信做题》新版(二).doc
- 人教版小学一年级上册数学期末测试卷1套.docx
- 人教版小学一年级上册数学期末测试卷带精品答案.docx
最近下载
- 基于单片机的智能加湿器设计.doc
- 废旧锂电池资源化利用生产线智能化改造环评环境影响报告书.doc
- TEJCCCSE020-2024 风机塔筒内置式箱变技术要求.pdf
- 齐齐哈尔城市功能的历史变化(1691-1962).pdf
- 人工智能在动漫角色动画中的应用.docx VIP
- (大班主题活动米.doc VIP
- CFA特许金融分析师-CFA一级-09-PortfolioManagement.docx VIP
- 外文文献翻译服装设计.pdf
- CFA特许金融分析师-CFA一级-03-FinancialStatementAnalysis一.docx VIP
- CFA特许金融分析师-CFA一级-衍生.pdf VIP
文档评论(0)