- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘导论教材配套教学——第0章入课
清华大学出版社 数据挖掘导论 之 入课 数据挖掘是什么 数据挖掘——Data Mining(DM) 数据挖掘是发现数据中潜在的有用模式(信息、知识、规律、模型)的过程 猎人在动物迁徙的行为中寻找模式 农夫在庄稼的生长中寻找模式 政客在选民的意见中寻找模式 恋人在对方的反应中寻找模式 * 第*页,共10页 “人类正被数据淹没,却饥渴于信息” ——John Naisbitt(未来学家) 数据挖掘能做什么 分类 (Classification) 应用: 评估信用卡申请者的风险等级——低、中、高 方法:使用已知分类的实例建立分类模型,对未知分类的实例进行分类 * 第*页,共10页 数据挖掘能做什么 估值(Estimation) 应用:根据购买模式,估计一个家庭的孩子个数、收入或财产 估值类似于分类,不同之处在于 分类的输出是离散量,估值输出为连续值 分类的类别数确定,估值的量是不确定的 * 第*页,共10页 数据挖掘能做什么 预测(Prediction) 应用:预测明天上证指数的收盘价 方法:通过分类或估值得出预测模型,用该模型对未知变量的预测 * 第*页,共10页 数据挖掘能做什么 相关分析(association analysis) 应用:购物篮分析(Market Basket Analysis)——超市中,客户在购买A的同时,是否经常会购买B或隔一段时间后,会购买B。目的是找到零售产品之间有趣的关系 方法:生成关联规则,表达客户购买行为的关联关系 * 第*页,共10页 数据挖掘能做什么 聚类(Clustering) 应用:在信用卡公司,发现输入属性的一个集合,来区分接受寿险促销和未接受促销的持卡人。 方法:对实例分组,把相似的实例放在一个聚类中,发现最能区分各聚类的典型属性,使用这些属性开发预测未来结果的模型 * 第*页,共10页 主要内容 * 第*页,共10页 学时分配 教学内容 学时分配 小计 讲课 上机实践 讨论/习题 第0讲 入课 1 1 2 第1讲 认识数据挖掘 5 2 7 第2讲 基本数据挖掘技术 6 3 9 第3讲 数据库中的知识发现 3 3 6 第4讲 数据仓库 3 3 3 9 第5讲 评估技术 3 3 6 第6讲 神经网络技术 3 3 6 第7讲 统计技术 3 3 3 9 第8讲 时间序列和基于Web的挖掘 3 3 6 合 计 30 15 15 60 * 第*页,共10页 表 0-1 学时安排 推荐资源 全球最大的数据挖掘信息网站-—— 数据挖掘和分析软件,求职,咨询,课程等数据挖掘社区资源 机器学习领域的UCI数据集——/ml University of California Irvine 提出的用于机器学习的数据库,目前拥有200多个数据集,并且数目还在不断增加。 在数据挖掘领域被认为是标准测试数据集。 * 第*页,共10页 清华大学出版社
文档评论(0)