1数据挖掘绪论.ppt.ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1数据挖掘绪论.ppt.ppt

数 据 挖 掘 主讲教师:高园园 E-mail: cindygao@ 教科书和参考书 教科书 数据挖掘:概念与技术,Jiawei Han和Micheline Kamber 著,机械工业出版社(2001) 参考书 数据挖掘原理, David Hand, Heikki Mannila和Padhraic Smyth著,机械工业出版社 (2003) 考核方法: 80%期末考试+20%实践上机 Clementine 12.0,sql server 2000\2005 主要内容 数据挖掘的发展动力 什么是数据挖掘? 在什么样的数据上进行数据挖掘? 数据挖掘的方法 数据挖掘的模式 数据挖掘系统的分类 数据挖掘的主要研究方向 数据挖掘的发展动力 ---需要是发明之母 数据爆炸问题 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在 数据库、数据仓库或其他信息库中以待分析。 我们拥有丰富的数据,但却缺乏有用的信息 解决方法:数据仓库技术和数据挖掘技术 数据仓库(Data Warehouse)和在线分析处理(OLAP) 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束) 数据库技术的演化 1960s和以前: 文件系统 1970s: 层次数据库和网状数据库 1980s早期: 关系数据模型, 关系数据库管理系统(RDBMS)的实现 1980s晚期: 各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.) 面向应用的数据库系统 (spatial数据库,时序数据库,多媒体数据库等等) 1990s: 数据挖掘, 数据仓库, 多媒体数据库和网络数据库 2000s 流数据管理和挖掘 基于各种应用的数据挖掘 XML数据库和整合的信息系统 什么是数据挖掘? 数据挖掘 (从数据中发现知识) 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词) 数据挖掘的替换词 数据库中的知识挖掘(KDD)、知识提炼、 数据/模式分析、数据考古、数据捕捞、信息收获等等。 并非所有东西都是“数据挖掘” 查询处理. 专家系统或是小型的数学计算/统计程序 数据挖掘的应用 数据分析和决策支持 市场分析和管理 目标市场, 客户关系管理 (CRM), 市场占有量分析, 交叉销售, 市场分割 风险分析和管理 风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析 欺骗检测和异常模式的监测 (孤立点) 其他的应用 文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘 流数据挖掘 DNA 和生物数据分析 数据挖掘应用——市场分析和管理(1) 数据从那里来? 信用卡交易, 会员卡, 商家的优惠卷, 消费者投诉电话, 公众生活方式研究 目标市场 构建一系列的“客户群模型”,这些顾客具有相同特征: 兴趣爱好, 收入水平, 消费习惯,等等 确定顾客的购买模式 交叉市场分析 货物销售之间的相互联系和相关性,以及基于这种联系上的预测 数据挖掘应用——市场分析和管理(2) 顾客分析 哪类顾客购买那种商品 (聚类分析或分类预测) 客户需求分析 确定适合不同顾客的最佳商品 预测何种因素能够吸引新顾客 提供概要信息 多维度的综合报告 统计概要信息 (数据的集中趋势和变化) 数据挖掘应用——公司分析和风险管理 财务计划 现金流转分析和预测 交叉区域分析和时间序列分析(财务资金比率,趋势分析等等) 资源计划 总结和比较资源和花费 竞争 对竞争者和市场趋势的监控 将顾客按等级分组和基于等级的定价过程 将定价策略应用于竞争更激烈的市场中 数据挖掘应用——欺诈行为检测和异常模式的发现 方法: 对欺骗行为进行聚类和建模,并进行孤立点分析 应用: 卫生保健、零售业、信用卡服务、电信等 汽车保险: 相撞事件的分析 洗钱: 发现可疑的货币交易行为 医疗保险 职业病人, 医生以及相关数据分析 不必要的或相关的测试 电信: 电话呼叫欺骗行为 电话呼叫模型: 呼叫目的地,持续时间,日或周呼叫次数. 分析该模型发现与期待标准的偏差 零售产业 分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的 反恐怖主义 其他应用 体育竞赛 美国NBA的29个球队中,有25个球队使用了IBM 分析机构的数据挖掘工具,通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。 天文学 JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星 网上冲浪 通过将数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为, 分析网络行销的有效性,改善网络站点组织。这就是新兴的WEB挖掘研究 数据挖掘的价值 数据挖掘的应用价值

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档