数据挖掘算法介绍综述.pptVIP

下载本文档

1
0
约5.19千字
约 35页
2017-02-22 发布于上海
举报
版权申诉

数据挖掘算法介绍综述.ppt

1、本文档共35页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘算法介绍综述

数据挖掘算法介绍－－综述什么是数据挖掘？为什么会出现数据挖掘？其他数据分析方法：统计学其他数据分析方法：商业智能数据挖掘 KDD DM DM is like setting up a restaurant kitchen... 数据挖掘与其他学科的关系数据挖掘与OLAP OLAP（on-line analytical processing）: 只能限制于少量的维度和数据类型用户控制的流程假设——验证——结论 DM：没有明确假设的前提下去挖掘信息、发现知识——具有未知、有效、可实用三个特征能自动的发现隐藏在数据中的规律可以发现比OLAP更复杂而细致的信息未知——归纳——结论联系： OLAP——DM OLAM 数据挖掘与统计学数据挖掘：数据挖掘利用了统计、人工智能、数据库等技术，把这些高深复杂的技术封装起来，使人们不用自己掌握这些技术也能完成同样的功能，并且更专注于自己所要解决的问题；不仅仅是统计分析；统计分析：统计分析技术都基于完善的数学理论和高超的技巧，预测的准确度还是令人满意的，但对使用者的要求很高联系统计分析方法学的延伸和扩展很多的挖掘算法来源于统计学前景预言：著名的咨询公司 Gartner Group在（2000年）一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首，并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位国外现状：成熟、产品：SAS、CLEMENTINE、UNICA、各大数据库国内现状：起步产品：大部分是实验室产品数据挖掘分类挖掘对象基于数据库的挖掘基于web的挖掘基于文本的挖掘其他：音频、视频等多媒体数据库数据挖掘分类应用响应模型交叉销售价值评估客户分群数据挖掘分类挖掘模式预测型(Predictive) 描述型(Descriptive) 实际作用可分为以下几种模式：分类：对没有分类的数据进行分类；预测：用历史来预测未来；关联分析：关联规则；聚类：物以类聚；序列模式：在多个数据序列中发现共同的行为模式; 描述和可视化：数据挖掘的结果的表示形式; 偏差分析：从数据分析中发现异常情况。数据挖掘分类我的理解－挖掘的算法分为三个层次：模式：比如分类、聚类－》模型：决策树、神经网络－》算法：ID3、CHAID、BP 举例：分类－决策树－ID3、CHAID等；聚类－聚类分析－k-means、EM等。数据挖掘分类挖掘模型决策树(decision tree) 关联规则(association rules) 聚类(clustering) 神经网络(Artificial Neural Networks，简记作ANN) 粗糙集(rough set) 概念格(concept lattice) 遗传算法(genetic algorithms) 序列模式(sequence pattern) 贝叶斯(Bayes) 支持向量机(support vector machine，简记作SVM) 模糊集(fuzzy set) 基于案例的推理(case-based reasoning，简记作CBR) 决策树决策树学习是以实例为基础的归纳学习算法,着眼于从一组无次序/无规则的事例中推理出决策树表示形式的分类规则；决策树基本算法是:贪心算法,它以自顶向下递归、各个击破方式构造决策树. 关联规则关联规则是形式如下的一种规则，“在购买面包和黄油的顾客中，有90％的人同时也买了牛奶”（面包＋黄油 → 牛奶）；关联规则的“三度”：支持度、可信度、兴趣度。聚类聚类是根据数据的不同特征,将其划分为不同的簇（cluster）,目的是使得属于同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别（相异度）较大；聚类技术大致分为五种：划分方法（partitioning method）层次方法（hierarchical method）基于密度的方法（density-based method）基于网格的方法（grid-based method）基于模型的方法（model-based method）神经网络人工神经网络，是对人类大脑系统的中模拟；神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相关联,在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确类标号来学习。激励函数的选择和权值的调整粗糙集粗糙集理论是一种研究不精确、不确定性知识的数学工具；粗糙集对不精确概念的描述方法是：通过上近似概念和下近似概念这两个精确概念来表示；一个概念（或集合）的下近似指的是其中的元素肯定属于该概念；一个概