网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘绪论浅谈数据挖掘).ppt

  1. 1、本文档共88页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘绪论浅谈数据挖掘)

* * * * * * 网上书店现在有了很强的市场和比较固定的大量的客户。为了促进网上书店的销售量的增长,各网上书店采取了各种方式,给客户提供更多更丰富的书籍,提供更优质服务等方式吸引更多的读者。 * * * * * * * * * * * * * * * * * * * * * * * * * * * * K-Means Clustering K-均值聚类方法 Example: 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 K=2 Arbitrarily choose K object as initial cluster center Assign each objects to most similar center Update the cluster means Update the cluster means reassign reassign 常用聚类算法的比较 * * ?关联规则(Association) 关联规则是分析发现数据库中不同变量或个体(例如商品间的关系及年龄与购买行为……)之间的关系程度(概率大小),并用这些规则找出顾客购买行为模式。 例如:购买了桌面计算机对购买其他计算机外设商品(打印机、喇叭、硬盘..)的相关影响。 发现这样的规则可以应用于商品货架摆设、库存安排以及根据购买行为模式对客户进行分类。 * * * * 啤酒与尿布的关联分析 Find all the rules X ? Y with minimum support and confidence support, s, probability that a transaction contains X ? Y confidence, c, conditional probability that a transaction having X also contains Y Let minsup = 50%, minconf = 50% Freq. Pat.: Beer:3, Nuts:3, Diaper:4, Eggs:3, {Beer, Diaper}:3 Association rules: (many more!) Beer ? Diaper (60%, 100%) Diaper ? Beer (60%, 75%) ?Neural Network * * 类神经网络,类似人类神经元结构。 神经元的主要功能是接受刺激和传递信息。神经元通过传入神经接受来自体内外环境变化的刺激信息,并对这些信息加以分析、综合和储存,再经过传出神经把指令传到所支配的器官和组织,产生调节和控制效应。 * * 单纯贝叶斯分类主要是根据贝叶斯定理(Bayesian Theorem),来预测分类的结果。 贝叶斯定理:P(X)、P(H)和P(X|H)可以由给定的数据计算,是先验概率。贝叶斯定理提供了一种由P(X)、P(H)和P(X|H)计算后验概率P(H|X)的方法。贝叶斯定理是: * * ?Na?ve Bayes 分类 实例:办信用卡意愿分析 项目 性别 年龄 学生身分 收入 办卡 1 男 45 否 高 会 2 女 31~45 否 高 会 3 女 20~30 是 低 会 4 男 20 是 低 不会 5 女 20~30 是 中 不会 6 女 20~30 否 中 会 7 女 31~45 否 高 会 8 男 31~45 是 中 不会 9 男 31~45 否 中 会 10 女 20 是 低 会 * * * 解:首先根据训练样本计算各属性相对于不同分类结果的条件概率: P(办卡)=7/10 P(不办卡)=3/10 P(女性|办卡)=5/7   P(女性|不办卡)=1/3 P(年龄=31~45|办卡)=3/7 P(年龄=31~45|不办卡)=1/3 P(学生=否|办卡)=5/7   P(学生=否|不办卡)=0/3 P(收入=中|办卡)=2/7   P(收入=中|不办卡)=2/3 * 判断:X=(女性,年龄介于31~45之间,不具学生身份,收入中等)会不会办理信用卡。 其次,再应用朴素贝氏分类器进行类别预测: 计算 P(办卡)P(女性|办卡)P(年龄31~45|办卡)P(不是学生|办卡)P(收入中|办卡) =15/343≈0.044 P(不办卡)P(女性|不办卡)P(年龄31~45|不办卡)P(不是学生|不办卡)P(收入中等|不办卡)=0 0.0440 * * * * 训练样本中对于(女性,年龄介于31~45之间,不具学生身份,收入中等)的个人,按照朴素贝叶斯分类

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档