- 1、本文档共61页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘十大经典算法概要
数据挖掘十大经典算法 石峰 国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法 数据挖掘大致萌芽于上世纪70年代,例如,在先期探索基础上,1978年,Ross J. Quinlan提出判定树方法ID3,后来发展为成为 C4.5 算法。十几年前,数据挖掘学科进入了“而立”之年,向“不惑”推进, 那时节,研究对象天天拓广,研究团队日益繁荣,老人要评功,新人要成长。有人顺天应时,提出动议:回顾成败、论功行赏、反思问题、展望未来。此议一呼,举“界”百应。 ???? 经过一段时间酝酿,以ICDM 2006为依托,广发英雄牒,邀请ACM KDD 发明奖得主和IEEE ICDM 研究贡献奖得主,作为数据挖掘十大算法提名委员会专家,得到积极响应。 严密的三阶段评选程序: 组织者提出了三阶段评选程序: (1)提名阶段: 给出被提名算法名称,作简短评价,提出代表性人物; (2)验证阶段:验证软件效率,查被引用频次,要求在2006.10月底,在Google Scholar上至少查出被引用50次以上。这里选用Google Scholar,而不是SCI,EI,是因为在当时,数据库和数据挖掘界的几个顶级会议(SIGMOD,VLDB,ICDE,ICDM等)以其水平和难度,堪称数据库界的奥林匹克或世界级锦标赛,但却被SCI 和EI遗忘。 另类的二八规律 提名和验证两阶段共推选出18个算法,并按验证指标排序。自然,其中8个在后来投票中未进入Top10,不妨称为提名奖得主,在高手如云的激烈竞争中,提名奖也是难得的荣誉。 巧得很,18个算法在后来的投票阶段中,只有两名从10名后升进10名前:即第11名 K-Means和第13名AdaBoost,占20%;而原Top10中的80%在在前10中 站稳了脚跟,不知这算不算另类的二八规律,即临近投票前的再努力,包括解释、演示和其他活动可能有20%的作用。 8个提名奖 下面列出获提名奖的算法名次、名称及首发文章。 值得注意的是,华裔学者韩家炜在出现了三次,裴健出现了两次。清单如下: ???? #8. FP-Tree: Han, J(韩家炜)., Pei, J.(裴健), and Yin, Y. 2000. Mining frequent patterns without candidate generation. In SIGMOD ‘00. Link Mining。挖掘关联规则的快速算法; ???? #10. HITS: Kleinberg, J. M. 1998. Authoritative sources in a hyperlinked environment. In Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, 1998. 网页超链诱导主题有哪些信誉好的足球投注网站; ???? #12. BIRCH Zhang, T., Ramakrishnan, R., and Livny, M. 1996. BIRCH: an efficient data clustering method for very large databases. In SIGMOD ‘96.聚类算法; ???? #14. GSP: Srikant, R. and Agrawal, R. 1996. Mining Sequential Patterns: Generalizations and Performance Improvements. In Proceedings of the 5th International Conference on Extending Database Technology, 1996.时间序列模式挖掘; ???? #15. PrefixSpan: J. Pei(裴健), J. Han(韩家炜), B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal and M-C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth. In ICDE ‘01.时间序列模式挖掘; ???? #16. CBA: Liu, B., Hsu, W. and Ma, Y. M. Integrating classification and association rule minin
文档评论(0)